hdabo: comparison src/hdabo/utils.py

equal deleted inserted replaced

-:3d54acec55d6
+:27f71b0a772d
 # -*- coding: utf-8 -*-
+import codecs
 import collections
+import math
+import re
+import sys
 import unicodedata
-import sys
-import math
+import unidecode
-import codecs
 ###
 # allow to declare a property as a decorator
 ###
 def Property(func):
 def viewitems(self):
 "od.viewitems() -> a set-like object providing a view on od's items"
 return ItemsView(self)
 ## end of http://code.activestate.com/recipes/576693/ }}}
-def remove_accents(str):
+def remove_accents(lne):
-nkfd_form = unicodedata.normalize('NFKD', unicode(str))
+nkfd_form = unicodedata.normalize('NFKD', unicode(lne))
 return u"".join([c for c in nkfd_form if not unicodedata.combining(c)])
-def normalize(str):
+def normalize(lne):
-return remove_accents(str).lower().replace(u"œ",u"oe")
+return remove_accents(lne).lower().replace(u"œ",u"oe")
+def sanitize(line, separator = '-', ascii_only = True):
+if not line:
+return ''
+#Transliterate non-ASCII characters
+line =  unidecode.unidecode(line)
+#Remove all characters that are not the separator, a-z, 0-9, or whitespace
+line = re.sub('[^\%sa-z0-9\s]+'%separator, '', line.lower())
+#// Replace all separator characters and whitespace by a single separator
+line = re.sub('[\%s\s]+' % separator, separator, line)
+return line.strip(separator)
 def show_progress(current_line, total_line, label, width, writer=None):
 if writer is None:
 writer = sys.stdout

changeset 443	27f71b0a772d
parent 266	825ff4d6a8ac