tweet_live: comparison script/lib/iri_tweet/export_twitter

equal deleted inserted replaced

-:4b99898f55de
+:c5d7dd0ec4e1
 #        return "<TweetExclude(id=%d)>" % (self.id)
 def parse_date(date_str):
 ts = email.utils.parsedate_tz(date_str)
 return datetime.datetime(*ts[0:7])
+def parse_polemics(tw, extended_mode):
+"""
+parse polemics in text and return a list of polemic code. None if not polemic found
+"""
+polemics = {}
+for m in re.finditer("(\+\+|\-\-|\?\?|\=\=)",tw.text):
+pol_link = {
+'++' : u'OK',
+'--' : u'KO',
+'??' : u'Q',
+'==' : u'REF'}[m.group(1)]
+polemics[pol_link] = pol_link
+if extended_mode:
+if "?" in tw.text:
+polemics["Q"] = "Q"
+for entity in tw.entity_list:
+if entity.type == "entity_url":
+polemics["REF"] = "REF"
+if len(polemics) > 0:
+return polemics.keys()
+else:
+return None
 def get_options():
 parser = OptionParser()
 parser.add_option("-f", "--file", dest="filename",
 help="write export to file", metavar="FILE", default="project_enmi.ldt")
 help="Cutting name", metavar="NAME", default=u"Tweets")
 parser.add_option("-R", "--replace", dest="replace", action="store_true",
 help="Replace tweet ensemble", metavar="REPLACE", default=False)
 parser.add_option("-L", "--list-conf", dest="listconf",
 help="list of file to process", metavar="LIST_CONF", default=None)
+parser.add_option("-E", "--extended", dest="extended_mode", action="store_true",
+help="Trigger polemic extended mode", metavar="EXTENDED", default=False)
 set_logging_options(parser)
 return parser.parse_args()
 if entity.type == u'entity_hashtag':
 etree.SubElement(tags_node,u"tag").text = entity.hashtag.text
 meta_element = etree.SubElement(element, u'meta')
-polemics_element = etree.Element(u'polemics')
+polemics_list = parse_polemics(tw, options.extended_mode)
-polemic_added = False
+if polemics_list:
-for m in re.finditer("(\+\+|\-\-|\?\?|\=\=)",tw.text):
+polemics_element = etree.Element(u'polemics')
-polemic_added = True
+for pol in polemics_list:
-pol_link = {
+etree.SubElement(polemics_element, u'polemic').text = pol
-'++' : u'OK',
-'--' : u'KO',
-'??' : u'Q',
-'==' : u'REF'}[m.group(1)]
-etree.SubElement(polemics_element, u'polemic').text = pol_link
-if polemic_added:
 meta_element.append(polemics_element)
 etree.SubElement(meta_element, u"source", attrib={"url":u"http://dev.twitter.com", "mimetype":u"application/json"}).text = etree.CDATA(unicode(tw.original_json))
 output_data = etree.tostring(root, encoding="utf-8", method="xml", pretty_print=True, xml_declaration=True)
 if content_file and content_file.find("http") == 0:

changeset 39	c5d7dd0ec4e1
parent 31	93fd53a97d6d
child 82	210dc265c70f