/lib/strings.py - Annotate - BIEN 3 - NCEAS Projects

root/lib/strings.py @ 1906

-            aaronmk
+# String manipulation
-            aaronmk
+import codecs
-            aaronmk
+import re
-            aaronmk
+import util
-            aaronmk
+##### Parsing
 def split(sep, str_):
     '''Returns [] if str_ == ""'''
     if str_ == '': return []
     else: return str_.split(sep)
 def remove_prefix(prefix, str_):
     if str_.startswith(prefix): return str_[len(prefix):]
     else: return str_
-            aaronmk
+def remove_prefixes(prefixes, str_):
     for prefix in prefixes: str_ = remove_prefix(prefix, str_)
     return str_
 def with_prefixes(prefixes, str_): return (p+str_ for p in prefixes)
-            aaronmk
+def remove_suffix(suffix, str_):
     if str_.endswith(suffix): return str_[:-len(suffix)]
     else: return str_
 def overlaps(str0, str1): return str0.find(str1) >= 0 or str1.find(str0) >= 0
-            aaronmk
+##### Unicode
-            aaronmk
+unicode_reader = codecs.getreader('utf_8')
-            aaronmk
+def to_unicode(str_):
     if isinstance(str_, unicode): return str_
     encodings = ['utf_8', 'latin_1']
     for encoding in encodings:
         try: return unicode(str_, encoding)
         except UnicodeDecodeError, e: pass
     raise AssertionError(encoding+' is not a catch-all encoding')
             aaronmk
-            aaronmk
+def ustr(val):
     '''Like built-in str() but converts to unicode object'''
     if not util.is_str(val): val = str(val)
     return to_unicode(val)
-            aaronmk
+##### Line endings
-            aaronmk
+def extract_line_ending(line):
     '''@return tuple (contents, ending)'''
     contents = remove_suffix('\r', remove_suffix('\n', line))
     return (contents, line[len(contents):])
             aaronmk
-            aaronmk
+def remove_line_ending(line): return extract_line_ending(line)[0]
 def ensure_newl(str_): return remove_line_ending(str_)+'\n'
-            aaronmk
+def is_multiline(str_):
     newl_idx = str_.find('\n')
     return newl_idx >= 0 and newl_idx != len(str_)-1 # has newline before end
-            aaronmk
+def remove_extra_newl(str_):
-            aaronmk
+    if is_multiline(str_): return str_
     else: return str_.rstrip()
-            aaronmk
+def std_newl(str_): return str_.replace('\r\n', '\n').replace('\r', '\n')
-            aaronmk
+##### Whitespace
-            aaronmk
+def cleanup(str_): return std_newl(str_.strip())
             aaronmk
-            aaronmk
+def single_space(str_): return re.sub(r' {2,}', r' ', str_.strip())
-            aaronmk
+def one_line(str_): return re.sub(r'\n *', r' ', cleanup(str_))
             aaronmk
 ##### Control characters
 def is_ctrl(char):
     '''Whether char is a (non-printable) control character'''
     return ord(char) < 32 and not char.isspace()
 def strip_ctrl(str_):
     '''Strips (non-printable) control characters'''
     return ''.join(filter(lambda c: not is_ctrl(c), str_))

Project

General

Profile