mons: comparison utils/export

equal deleted inserted replaced

-:5007c248fbad
+:c2294ac6e875
 import os.path
 import re
 import sys
 import time
 import uuid #@UnresolvedImport
-from dateutil.parser import parse as parse_date
+from dateutil.parser import parse as parse_date_raw
+from dateutil.tz import tzutc
 import bisect
 import logging
 #class TweetExclude(object):
 #    def __init__(self, id):
 #        return "<TweetExclude(id=%d)>" % (self.id)
 LDT_CONTENT_REST_API_PATH = "api/ldt/1.0/contents/"
 LDT_PROJECT_REST_API_PATH = "api/ldt/1.0/projects/"
 DEFAULT_ANNOTATION_CHANNEL = 'ANNOT'
+def parse_date(datestr):
+res = parse_date_raw(datestr)
+if res.tzinfo is None:
+res = res.replace(tzinfo=tzutc())
+return res
 def get_logger():
 return logging.getLogger(__name__)
 help="quiet", default=0)
 def get_options():
-usage = "usage: %(prog)s [options]"
+parser = argparse.ArgumentParser(description="All date should be given using iso8601 format. If no timezone is used, the date is considered as UTC")
-parser = argparse.ArgumentParser(usage)
 parser.add_argument("-f", "--file", dest="filename",
 help="write export to file", metavar="FILE", default="project.ldt")
 parser.add_argument("-a", "--annot-url", dest="annot_url",
 help="annotation server url", metavar="ANNOT-URL", required=True)
 time_params = {
 'hours': int(parts[0]),
 'minutes': int(parts[1]),
 'seconds': int(parts[2]) if len(parts)>2 else 0
 }
-return int(datetime.timedelta(**time_params).total_seconds()*1000)
+return int(round(datetime.timedelta(**time_params).total_seconds()*1000))
 def build_annotation_iterator(url, params, headers):
 page = 0
 page_nb = 1
 while page < page_nb:
 start_date_str = params.get("start_date",None)
 end_date_str = params.get("end_date", None)
 duration = params.get("duration", None)
 content_file = params.get("content_file", None)
 content_file_write = params.get("content_file_write", None)
-channels = params.get('channels', [DEFAULT_ANNOTATION_CHANNEL])
+channels = list(set(params.get('channels', [DEFAULT_ANNOTATION_CHANNEL])))
-events = params.get('events', [])
+events = list(set(params.get('events', [])))
 if user_whitelist_file:
 with open(user_whitelist_file, 'r+') as f:
 user_whitelist = list(set([s.strip() for s in f]))
 start_date = None
-ts = None
 if start_date_str:
-start_date = parse_date(start_date_str)
+start_date= parse_date(start_date_str)
-ts = time.mktime(start_date.timetuple())
 root = None
 ensemble_parent = None
 if root is None:
 root = etree.Element(u"iri")
-project = etree.SubElement(root, u"project", {u"abstract":u"Polemics Tweets",u"title":u"Polemic Tweets", u"user":u"IRI Web", u"id":unicode(uuid.uuid4())})
+project = etree.SubElement(root, u"project", {u"abstract":u"Annotations",u"title":u"Annotations", u"user":u"IRI Web", u"id":unicode(uuid.uuid4())})
 medias = etree.SubElement(root, u"medias")
 media = etree.SubElement(medias, u"media", {u"pict":u"", u"src":unicode(options.content), u"video":unicode(options.video), u"id":unicode(options.content_id), u"extra":u""})
 annotations = etree.SubElement(root, u"annotations")
 params = { 'q':json.dumps({'filters':filters}), 'results_per_page': options.batch_size}
 for annot in build_annotation_iterator(annotation_url, params, headers):
-#TODO : check timezone !!!
+annot_ts = parse_date(annot['ts'])
-annot_ts_dt = parse_date(annot['ts'])
+if start_date is None:
-annot_ts = int(time.mktime(annot_ts_dt.timetuple()))
+star_date = annot_ts
-if ts is None:
+annot_ts_rel = annot_ts-start_date
-ts = annot_ts
+annot_ts_rel_milli = int(round(annot_ts_rel.total_seconds()*1000))
-annot_ts_rel = (annot_ts-ts) * 1000
 if deltas:
-d = find_delta(deltas, annot_ts_rel)
+d = find_delta(deltas, annot_ts_rel_milli)
 if d[1] < 0:
 continue
 else :
-annot_ts_rel -= d[1]
+annot_ts_rel_milli -= d[1]
 annot_content = annot.get('content',{'category':'', 'user':None})
 username = annot_content.get('user', 'anon.') or 'anon.'
 category = annot_content.get('category', None)
 if category is None:
 continue
-element = etree.SubElement(elements, u"element" , {u"id":annot.get('uuid', uuid.uuid4()), u"color":unicode(options.color), u"author":unicode(username), u"date":unicode(annot_ts_dt.strftime("%Y/%m/%d")), u"begin": unicode(annot_ts_rel), u"dur":u"0"})
+element = etree.SubElement(elements, u"element" , {u"id":annot.get('uuid', uuid.uuid4()), u"color":unicode(options.color), u"author":unicode(username), u"date":unicode(annot_ts.strftime("%Y/%m/%d")), u"begin": unicode(annot_ts_rel_milli), u"dur":u"0"})
 etree.SubElement(element, u"title").text = unicode(username) + u": " + unicode(category.get('label', category.get('code', '')))
 etree.SubElement(element, u"abstract").text = unicode(category.get('label', category.get('code', '')))
 tags_node = etree.SubElement(element, u"tags")
 etree.SubElement(tags_node,u"tag").text = category.get('code', '')

changeset 30	c2294ac6e875
parent 26	ebfd0d3cffab
child 43	e27c3c1c57f1