/ - Diff - BIEN 3 - NCEAS Projects

« Previous | Next »

Revision 982

Added by Aaron Marcuse-Kubitza almost 13 years ago

bin/map: Use profiling.ItersProfiler. Refactored input row count calculation to have each function aggregate and return the row count, and then display the row count and statistics that depend on it at the end of the program.

     import exc
     import opts
     import Parser
     import profiling
     import sql
     import strings
     import term
-...
                     if end != None and i >= end: break
                     process_row(row, i)
                     row_ready(i, row)
                 row_ct = i-start+1
                 ex_tracker.add_iters(row_ct)
                 sys.stderr.write('Processed '+str(row_ct)+' input rows\n')
                 return row_ct
             def map_rows(get_value, rows):
                 '''Maps input rows
-...
                             value = get_value(in_, row)
                         if value != None: xpath.put_obj(root, out, row_id,
                             has_types, strings.cleanup(value))
                 process_rows(process_row, rows)
                 return process_rows(process_row, rows)
             if map_path == None:
                 iter_ = xml_dom.NodeElemIter(doc0.documentElement)
                 util.skip(iter_, xml_dom.is_text) # skip metadata
                 process_rows(lambda row, i: root.appendChild(row), iter_)
                 row_ct = process_rows(lambda row, i: root.appendChild(row), iter_)
             elif in_is_db:
                 assert in_is_xpaths
-...
                     value = sql.value_or_none(db_xml.get(in_db, in_, in_pkeys))
                     if value != None: return str(value)
                     else: return None
                 map_rows(get_value, sql.rows(db_xml.get(in_db, in_root_xml,
                 row_ct = map_rows(get_value, sql.rows(db_xml.get(in_db, in_root_xml,
                     in_pkeys, end, 0)))
                 in_db.close()
             elif in_is_xml:
-...
                 rows = xpath.get(doc0.documentElement, in_root, limit=end)
                 if rows == []: raise SystemExit('Map error: Root "'+in_root
                     +'" not found in input')
                 map_rows(get_value, rows)
                 row_ct = map_rows(get_value, rows)
             else: # input is CSV
                 map_ = dict(mappings)
                 reader = csv.reader(sys.stdin)
-...
                     value = row[in_]
                     if value != '': return value
                     else: return None
                 map_rows(get_value, reader)
                 row_ct = map_rows(get_value, reader)
             return row_ct
         def process_inputs(root, row_ready):
             for map_path in map_paths: process_input(root, row_ready, map_path)
             row_ct = 0
             for map_path in map_paths:
                 row_ct += process_input(root, row_ready, map_path)
             return row_ct
         # Output XML tree
         profiler = profiling.ItersProfiler(start_now=True, iter_text='row')
         doc = xml_dom.create_doc()
         root = doc.documentElement
         if out_is_db:
-...
             out_pkeys = {}
             try:
                 if redo: sql.empty_db(out_db)
                 row_ct_ref = [0]
                 row_ins_ct_ref = [0]
                 def row_ready(row_num, input_row):
                     def on_error(e):
-...
                     if not xml_dom.is_empty(root):
                         assert xml_dom.has_one_child(root)
                         try:
                             sql.with_savepoint(out_db, lambda: db_xml.put(out_db,
                                 root.firstChild, out_pkeys, row_ct_ref, on_error))
                             sql.with_savepoint(out_db,
                                 lambda: db_xml.put(out_db, root.firstChild,
                                     out_pkeys, row_ins_ct_ref, on_error))
                             if commit: out_db.commit()
                         except sql.DatabaseErrors, e: on_error(e)
                     root.clear()
                 process_inputs(root, row_ready)
                 sys.stdout.write('Inserted '+str(row_ct_ref[0])+
                 row_ct = process_inputs(root, row_ready)
                 sys.stdout.write('Inserted '+str(row_ins_ct_ref[0])+
                     ' new rows into database\n')
             finally:
                 out_db.rollback()
-...
         else:
             def on_error(e): ex_tracker.track(e)
             def row_ready(row_num, input_row): pass
             process_inputs(root, row_ready)
             row_ct = process_inputs(root, row_ready)
             xml_func.process(root, on_error)
             if out_is_xml_ref[0]:
                 doc.writexml(sys.stdout, **xml_dom.prettyxml_config)
             else: # output is CSV
                 raise NotImplementedError('CSV output not supported yet')
         profiler.stop(row_ct)
         ex_tracker.add_iters(row_ct)
         sys.stderr.write('Processed '+str(row_ct)+' input rows\n')
         sys.stderr.write(profiler.msg()+'\n')
     def main():
         try: main_()

Also available in: Unified diff

Project

General

Profile

Revision 982

Added by Aaron Marcuse-Kubitza almost 13 years ago