comt: comparison src/cm/converters/pandoc

equal deleted inserted replaced

-:9245a73f5787
+:07a1fba18fff
 import os
 from tempfile import mkstemp
 import StringIO
 import tidy
 from cm.utils.string_utils import to_unicode
+from xml.dom.minidom import parseString
+import re
 PANDOC_BIN = "pandoc"
-PANDOC_OPTIONS = " --sanitize-html "
+PANDOC_OPTIONS = " --sanitize-html --email-obfuscation=none  "
-PANDOC_OPTIONS_RAW = " -R "
+PANDOC_OPTIONS_RAW = " -R --email-obfuscation=none "
 MARKDOWN2PDF_BIN = "markdown2pdf"
 # make sure binaries are available
 from cm.utils.system import bin_search
 tidy_options = dict(output_xhtml=1,
 add_xml_decl=0,
 indent=0,
 tidy_mark=0,
+logical_emphasis=1,
+wrap=0,
 input_encoding='utf8',
 output_encoding='utf8',
 )
 tidyied_content = tidy.parseString(to_unicode(content).encode('utf8'), **tidy_options)
 tidyied_content = str(tidyied_content)
 # pandoc arguments and command line
 p_options = PANDOC_OPTIONS
 if raw:
 p_options = PANDOC_OPTIONS_RAW
+# do not use pandoc to convert from html to html
+if from_format==to_format=='html':
+# get body content
+stdoutdata = (content.encode('utf8'))
+# if for some reason, tidy has not guess the doctype, make xml.dom.minidom happy with HTML entities (&nbsp;)
+stdoutdata = re.sub(r"&nbsp;", '\xc2\xa0', stdoutdata)
+dom = parseString(stdoutdata)
+body = dom.getElementsByTagName("body")[0].toxml()
+stdoutdata = body[body.find('>')+1:body.rfind('</')]
+# strip leading spaces
+stdoutdata = re.sub(r"^\s+", '', stdoutdata)
+# add new line before closing bracket
+stdoutdata = re.sub(r"(\/?)>", r"\n\1>", stdoutdata)
+# do not split closing tag with following opening tag
+stdoutdata = re.sub(r">\n<", r"><", stdoutdata)
+# nest headers tags
+#stdoutdata = re.sub(r'<h(\d) id="([^"]+)"\n>', r'<div id="\2"><h\1>', stdoutdata)
+#stdoutdata = re.sub(r'<\/h(\d)\n>', r'</h\1></div>', stdoutdata)
+return stdoutdata
 cmd_args = ' %s -o %s ' %(p_options,output_temp_name)
 if full:
 cmd_args += ' -s '
 cmd_args += ' -f %s ' % from_format
 cmd_args += ' -t %s ' % to_format

changeset 352	07a1fba18fff
parent 351	9245a73f5787
child 355	c926868cf7e6