blinkster: web/lib/django/utils/text.py@0d40e90630ef (annotated)

0 0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	1	import re
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	2	from django.conf import settings
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	3	from django.utils.encoding import force_unicode
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	4	from django.utils.functional import allow_lazy
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	5	from django.utils.translation import ugettext_lazy
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	6	from htmlentitydefs import name2codepoint
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	7
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	8	# Capitalizes the first letter of a string.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	9	capfirst = lambda x: x and force_unicode(x)[0].upper() + force_unicode(x)[1:]
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	10	capfirst = allow_lazy(capfirst, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	11
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	12	def wrap(text, width):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	13	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	14	A word-wrap function that preserves existing line breaks and most spaces in
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	15	the text. Expects that existing line breaks are posix newlines.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	16	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	17	text = force_unicode(text)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	18	def _generator():
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	19	it = iter(text.split(' '))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	20	word = it.next()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	21	yield word
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	22	pos = len(word) - word.rfind('\n') - 1
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	23	for word in it:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	24	if "\n" in word:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	25	lines = word.split('\n')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	26	else:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	27	lines = (word,)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	28	pos += len(lines[0]) + 1
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	29	if pos > width:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	30	yield '\n'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	31	pos = len(lines[-1])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	32	else:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	33	yield ' '
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	34	if len(lines) > 1:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	35	pos = len(lines[-1])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	36	yield word
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	37	return u''.join(_generator())
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	38	wrap = allow_lazy(wrap, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	39
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	40	def truncate_words(s, num):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	41	"Truncates a string after a certain number of words."
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	42	s = force_unicode(s)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	43	length = int(num)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	44	words = s.split()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	45	if len(words) > length:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	46	words = words[:length]
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	47	if not words[-1].endswith('...'):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	48	words.append('...')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	49	return u' '.join(words)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	50	truncate_words = allow_lazy(truncate_words, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	51
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	52	def truncate_html_words(s, num):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	53	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	54	Truncates html to a certain number of words (not counting tags and
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	55	comments). Closes opened tags if they were correctly closed in the given
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	56	html.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	57	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	58	s = force_unicode(s)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	59	length = int(num)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	60	if length <= 0:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	61	return u''
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	62	html4_singlets = ('br', 'col', 'link', 'base', 'img', 'param', 'area', 'hr', 'input')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	63	# Set up regular expressions
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	64	re_words = re.compile(r'&.?;\|<.?>\|(\w[\w-]*)', re.U)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	65	re_tag = re.compile(r'<(/)?([^ ]+?)(?: (/)\| .*?)?>')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	66	# Count non-HTML words and keep note of open tags
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	67	pos = 0
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	68	ellipsis_pos = 0
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	69	words = 0
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	70	open_tags = []
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	71	while words <= length:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	72	m = re_words.search(s, pos)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	73	if not m:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	74	# Checked through whole string
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	75	break
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	76	pos = m.end(0)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	77	if m.group(1):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	78	# It's an actual non-HTML word
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	79	words += 1
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	80	if words == length:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	81	ellipsis_pos = pos
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	82	continue
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	83	# Check for tag
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	84	tag = re_tag.match(m.group(0))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	85	if not tag or ellipsis_pos:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	86	# Don't worry about non tags or tags after our truncate point
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	87	continue
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	88	closing_tag, tagname, self_closing = tag.groups()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	89	tagname = tagname.lower() # Element names are always case-insensitive
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	90	if self_closing or tagname in html4_singlets:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	91	pass
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	92	elif closing_tag:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	93	# Check for match in open tags list
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	94	try:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	95	i = open_tags.index(tagname)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	96	except ValueError:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	97	pass
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	98	else:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	99	# SGML: An end tag closes, back to the matching start tag, all unclosed intervening start tags with omitted end tags
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	100	open_tags = open_tags[i+1:]
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	101	else:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	102	# Add it to the start of the open tags list
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	103	open_tags.insert(0, tagname)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	104	if words <= length:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	105	# Don't try to close tags if we don't need to truncate
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	106	return s
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	107	out = s[:ellipsis_pos] + ' ...'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	108	# Close any tags still open
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	109	for tag in open_tags:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	110	out += '</%s>' % tag
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	111	# Return string
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	112	return out
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	113	truncate_html_words = allow_lazy(truncate_html_words, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	114
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	115	def get_valid_filename(s):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	116	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	117	Returns the given string converted to a string that can be used for a clean
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	118	filename. Specifically, leading and trailing spaces are removed; other
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	119	spaces are converted to underscores; and anything that is not a unicode
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	120	alphanumeric, dash, underscore, or dot, is removed.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	121	>>> get_valid_filename("john's portrait in 2004.jpg")
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	122	u'johns_portrait_in_2004.jpg'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	123	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	124	s = force_unicode(s).strip().replace(' ', '_')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	125	return re.sub(r'(?u)[^-\w.]', '', s)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	126	get_valid_filename = allow_lazy(get_valid_filename, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	127
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	128	def get_text_list(list_, last_word=ugettext_lazy(u'or')):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	129	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	130	>>> get_text_list(['a', 'b', 'c', 'd'])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	131	u'a, b, c or d'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	132	>>> get_text_list(['a', 'b', 'c'], 'and')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	133	u'a, b and c'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	134	>>> get_text_list(['a', 'b'], 'and')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	135	u'a and b'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	136	>>> get_text_list(['a'])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	137	u'a'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	138	>>> get_text_list([])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	139	u''
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	140	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	141	if len(list_) == 0: return u''
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	142	if len(list_) == 1: return force_unicode(list_[0])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	143	return u'%s %s %s' % (', '.join([force_unicode(i) for i in list_][:-1]), force_unicode(last_word), force_unicode(list_[-1]))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	144	get_text_list = allow_lazy(get_text_list, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	145
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	146	def normalize_newlines(text):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	147	return force_unicode(re.sub(r'\r\n\|\r\|\n', '\n', text))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	148	normalize_newlines = allow_lazy(normalize_newlines, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	149
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	150	def recapitalize(text):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	151	"Recapitalizes text, placing caps after end-of-sentence punctuation."
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	152	text = force_unicode(text).lower()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	153	capsRE = re.compile(r'(?:^\|(?<=[\.\?\!] ))([a-z])')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	154	text = capsRE.sub(lambda x: x.group(1).upper(), text)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	155	return text
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	156	recapitalize = allow_lazy(recapitalize)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	157
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	158	def phone2numeric(phone):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	159	"Converts a phone number with letters into its numeric equivalent."
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	160	letters = re.compile(r'[A-PR-Y]', re.I)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	161	char2number = lambda m: {'a': '2', 'c': '2', 'b': '2', 'e': '3',
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	162	'd': '3', 'g': '4', 'f': '3', 'i': '4', 'h': '4', 'k': '5',
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	163	'j': '5', 'm': '6', 'l': '5', 'o': '6', 'n': '6', 'p': '7',
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	164	's': '7', 'r': '7', 'u': '8', 't': '8', 'w': '9', 'v': '8',
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	165	'y': '9', 'x': '9'}.get(m.group(0).lower())
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	166	return letters.sub(char2number, phone)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	167	phone2numeric = allow_lazy(phone2numeric)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	168
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	169	# From http://www.xhaus.com/alan/python/httpcomp.html#gzip
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	170	# Used with permission.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	171	def compress_string(s):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	172	import cStringIO, gzip
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	173	zbuf = cStringIO.StringIO()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	174	zfile = gzip.GzipFile(mode='wb', compresslevel=6, fileobj=zbuf)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	175	zfile.write(s)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	176	zfile.close()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	177	return zbuf.getvalue()
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	178
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	179	ustring_re = re.compile(u"([\u0080-\uffff])")
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	180
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	181	def javascript_quote(s, quote_double_quotes=False):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	182
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	183	def fix(match):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	184	return r"\u%04x" % ord(match.group(1))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	185
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	186	if type(s) == str:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	187	s = s.decode('utf-8')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	188	elif type(s) != unicode:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	189	raise TypeError, s
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	190	s = s.replace('\\', '\\\\')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	191	s = s.replace('\r', '\\r')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	192	s = s.replace('\n', '\\n')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	193	s = s.replace('\t', '\\t')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	194	s = s.replace("'", "\\'")
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	195	if quote_double_quotes:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	196	s = s.replace('"', '"')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	197	return str(ustring_re.sub(fix, s))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	198	javascript_quote = allow_lazy(javascript_quote, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	199
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	200	# Expression to match some_token and some_token="with spaces" (and similarly
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	201	# for single-quoted strings).
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	202	smart_split_re = re.compile(r"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	203	([^\s"]"(?:[^"\\](?:\\.[^"\\]))"\S*\|
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	204	[^\s']'(?:[^'\\](?:\\.[^'\\]))'\S*\|
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	205	\S+)""", re.VERBOSE)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	206
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	207	def smart_split(text):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	208	r"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	209	Generator that splits a string by spaces, leaving quoted phrases together.
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	210	Supports both single and double quotes, and supports escaping quotes with
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	211	backslashes. In the output, strings will keep their initial and trailing
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	212	quote marks and escaped quotes will remain escaped (the results can then
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	213	be further processed with unescape_string_literal()).
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	214
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	215	>>> list(smart_split(r'This is "a person\'s" test.'))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	216	[u'This', u'is', u'"a person\\\'s"', u'test.']
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	217	>>> list(smart_split(r"Another 'person\'s' test."))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	218	[u'Another', u"'person\\'s'", u'test.']
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	219	>>> list(smart_split(r'A "\"funky\" style" test.'))
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	220	[u'A', u'"\\"funky\\" style"', u'test.']
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	221	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	222	text = force_unicode(text)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	223	for bit in smart_split_re.finditer(text):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	224	yield bit.group(0)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	225	smart_split = allow_lazy(smart_split, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	226
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	227	def _replace_entity(match):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	228	text = match.group(1)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	229	if text[0] == u'#':
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	230	text = text[1:]
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	231	try:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	232	if text[0] in u'xX':
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	233	c = int(text[1:], 16)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	234	else:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	235	c = int(text)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	236	return unichr(c)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	237	except ValueError:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	238	return match.group(0)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	239	else:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	240	try:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	241	return unichr(name2codepoint[text])
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	242	except (ValueError, KeyError):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	243	return match.group(0)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	244
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	245	_entity_re = re.compile(r"&(#?[xX]?(?:[0-9a-fA-F]+\|\w{1,8}));")
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	246
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	247	def unescape_entities(text):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	248	return _entity_re.sub(_replace_entity, text)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	249	unescape_entities = allow_lazy(unescape_entities, unicode)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	250
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	251	def unescape_string_literal(s):
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	252	r"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	253	Convert quoted string literals to unquoted strings with escaped quotes and
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	254	backslashes unquoted::
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	255
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	256	>>> unescape_string_literal('"abc"')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	257	'abc'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	258	>>> unescape_string_literal("'abc'")
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	259	'abc'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	260	>>> unescape_string_literal('"a \"bc\""')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	261	'a "bc"'
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	262	>>> unescape_string_literal("'\'ab\' c'")
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	263	"'ab' c"
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	264	"""
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	265	if s[0] not in "\"'" or s[-1] != s[0]:
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	266	raise ValueError("Not a string literal: %r" % s)
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	267	quote = s[0]
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	268	return s[1:-1].replace(r'\%s' % quote, quote).replace(r'\\', '\\')
0d40e90630ef Blinkster creation ymh <ymh.work@gmail.com> parents: diff changeset	269	unescape_string_literal = allow_lazy(unescape_string_literal)

author	ymh <ymh.work@gmail.com>
	Wed, 20 Jan 2010 00:34:04 +0100
changeset 0	0d40e90630ef
child 29	cc9b7e14412b
permissions	-rw-r--r--