comt: src/cm/utils/spannifier.py@5a02bfc8aae8 (annotated)

0 40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	1	import uuid
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	2	import xml.dom.minidom
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	3	import re
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	4	from BeautifulSoup import BeautifulSoup, Comment
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	5
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	6
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	7	def get_text_nodes(soup):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	8	return soup(text=lambda text:not isinstance(text, Comment))
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	9
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	10	def is_real_text_node(textNode):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	11	return not textNode.findParent('style')
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	12
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	13	def get_the_soup(input):
464 5a02bfc8aae8 For some reasons BeautifulSouf does not convert entities with convertEntities=["xml","html"], use convertEntities=BeautifulSoup.ALL_ENTITIES instead. gibus parents: 450 diff changeset	14	return BeautifulSoup(input, convertEntities=BeautifulSoup.ALL_ENTITIES)
270 05a602160c58 cache spannify function raph parents: 0 diff changeset	15
05a602160c58 cache spannify function raph parents: 0 diff changeset	16	from cm.utils.cache import memoize, dj_memoize
05a602160c58 cache spannify function raph parents: 0 diff changeset	17	@dj_memoize
0 40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	18	def spannify(input):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	19	"""
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	20	wrap textNodes in spans
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	21	"""
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	22
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	23	input = re.sub("\s*$","",input)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	24
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	25	soup = get_the_soup(input)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	26
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	27	textNodes = get_text_nodes(soup)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	28	textNodes_content = []
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	29
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	30	span_starts = {}
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	31	for i in xrange(len(textNodes)):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	32	textNode = textNodes[i]
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	33	if is_real_text_node(textNode) :
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	34	textNode.replaceWith('<span id="sv_' + str(i) + '" class="c-s"><span id="sv-' + str(i) + '" class="c-count-0 c-c">' + textNode.string + '</span></span>')
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	35	span_starts[i] = len(''.join(textNodes_content))
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	36	textNodes_content.append(textNode.string)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	37	output = unicode(soup)
450 81fa74c112b8 Fix #77 html code inside document viewer. gibus parents: 270 diff changeset	38	# Soup has introduced HTML entities, which should be expanded
81fa74c112b8 Fix #77 html code inside document viewer. gibus parents: 270 diff changeset	39	output =re.sub(r""", '"', output)
81fa74c112b8 Fix #77 html code inside document viewer. gibus parents: 270 diff changeset	40	output =re.sub(r"&", '&', output)
81fa74c112b8 Fix #77 html code inside document viewer. gibus parents: 270 diff changeset	41	output =re.sub(r">", '>', output)
81fa74c112b8 Fix #77 html code inside document viewer. gibus parents: 270 diff changeset	42	output =re.sub(r"<", '<', output)
0 40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	43
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	44	textualized = ''.join(textNodes_content)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	45	return output, textualized, span_starts

author	gibus
	Mon, 24 Sep 2012 01:12:12 -0700
changeset 464	5a02bfc8aae8
parent 450	81fa74c112b8
child 473	cefe588b2a2b
permissions	-rw-r--r--