/ - Diff - BIEN 3 - NCEAS Projects

« Previous | Next »

Revision 4652

Added by Aaron Marcuse-Kubitza over 12 years ago

Removed no longer used intersect

     #!/usr/bin/env python
     # Intersects two map spreadsheets A0->B and A1->C to A->B, with B overwriting C
     # Multi-safe (supports an input appearing multiple times).
     # Case- and punctuation-insensitive.
     import csv
     import os.path
     import sys
     sys.path.append(os.path.dirname(__file__)+"/../lib")
     import maps
     import util
     def main():
         try: _prog_name, map_1_path = sys.argv[:2]
         except ValueError:
             raise SystemExit('Usage: '+sys.argv[0]+' <map_0 map_1 '
                 '[compare_col_num...] [| '+sys.argv[0]
                 +' map_2]... >intersect_map')
         compare_col_nums = map(int, sys.argv[2:]) # 0-based
         if compare_col_nums == []:
             compare_col_nums = None # list_subset() value for all columns
         def compare_on(row): return tuple(map(maps.simplify,
             util.list_subset(row, compare_col_nums)))
         headers = [None]*2
         # Get map 1
         compare_cols = set()
         stream = open(map_1_path, 'rb')
         reader = csv.reader(stream)
         headers[1] = reader.next()
         for row in reader:
             if row[0] != '':
                 compare_cols.add(compare_on(row))
         stream.close()
         # Open map 0
         reader = csv.reader(sys.stdin)
         headers[0] = reader.next()
         # Check col labels
         combinable = maps.combinable(*headers)
         if not combinable:
             raise SystemExit('Map error: '
             'Map 0 column 0 label doesn\'t contain map 1 column 0 label')
         # Add map 0 to map 1, overwriting existing entries
         writer = csv.writer(sys.stdout)
         writer.writerow(headers[0])
         for row in reader:
             if not combinable or compare_on(row) in compare_cols:
                 # not combinable, or in map 1
                 writer.writerow(row)
     main()

                 def split_col_name(name):
                     label, sep, root = name.partition(':')
                     label, sep2, prefixes_str = label.partition('[')
                     prefixes_str = strings.remove_suffix(']', prefixes_str)
                     prefixes = strings.split(',', prefixes_str)
                     return label, sep != '', root, prefixes
                         # extract datasrc from "datasrc[data_format]"
                     return label, sep != '', root, []
                 in_label, in_root, prefixes = maps.col_info(in_label)
                 in_is_xpaths = in_root != None

Also available in: Unified diff

Project

General

Profile

Revision 4652

Added by Aaron Marcuse-Kubitza over 12 years ago