comt: src/cm/utils/spannifier.py@05a602160c58 (annotated)

0 40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	1	import uuid
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	2	import xml.dom.minidom
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	3	import re
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	4	from BeautifulSoup import BeautifulSoup, Comment
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	5
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	6
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	7	def get_text_nodes(soup):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	8	return soup(text=lambda text:not isinstance(text, Comment))
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	9
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	10	def is_real_text_node(textNode):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	11	return not textNode.findParent('style')
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	12
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	13	def get_the_soup(input):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	14	return BeautifulSoup(input, convertEntities=["xml", "html"])
270 05a602160c58 cache spannify function raph parents: 0 diff changeset	15
05a602160c58 cache spannify function raph parents: 0 diff changeset	16	from cm.utils.cache import memoize, dj_memoize
05a602160c58 cache spannify function raph parents: 0 diff changeset	17	@dj_memoize
0 40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	18	def spannify(input):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	19	"""
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	20	wrap textNodes in spans
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	21	"""
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	22
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	23	input = re.sub("\s*$","",input)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	24
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	25	soup = get_the_soup(input)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	26
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	27	textNodes = get_text_nodes(soup)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	28	textNodes_content = []
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	29
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	30	span_starts = {}
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	31	for i in xrange(len(textNodes)):
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	32	textNode = textNodes[i]
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	33	if is_real_text_node(textNode) :
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	34	textNode.replaceWith('<span id="sv_' + str(i) + '" class="c-s"><span id="sv-' + str(i) + '" class="c-count-0 c-c">' + textNode.string + '</span></span>')
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	35	span_starts[i] = len(''.join(textNodes_content))
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	36	textNodes_content.append(textNode.string)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	37	output = unicode(soup)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	38
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	39	textualized = ''.join(textNodes_content)
40c8f766c9b8 import from internal svn r 4007 raph parents: diff changeset	40	return output, textualized, span_starts

author	raph
	Thu, 06 May 2010 17:48:11 +0200
changeset 270	05a602160c58
parent 0	40c8f766c9b8
child 450	81fa74c112b8
permissions	-rw-r--r--