/bin/cat_csv - Diff - BIEN 3 - NCEAS Projects

« Previous | Next »

Revision 1447

Added by Aaron Marcuse-Kubitza almost 13 years ago

cat_csv: Ignore any duplicated headers instead of requiring each CSV to have a header identical to the first. Rewrote to pass the CSVs through as lines rather than parsing each row. Because the CSVs are not parsed, checked that all CSVs have the same dialect.

     #!/usr/bin/env python
     # Concatenates two spreadsheets with the same headers
     # Concatenates spreadsheets, removing any duplicated headers
     # Usage: self [sheet...] >out_sheet
     import csv
     import os.path
     import sys
     sys.path.append(os.path.dirname(__file__)+"/../lib")
     import csvs
     import util
     def main():
         try: _prog_name, sheet_1_path = sys.argv
         except ValueError:
             raise SystemExit('Usage: '+sys.argv[0]+' <sheet_0 sheet_1 [| '
                 +sys.argv[0]+' sheet_2]... >cat_sheet')
         paths = sys.argv[1:]
         # Get cols
         reader_0 = csv.reader(sys.stdin)
         sheet_0_cols = reader_0.next()
         stream_1 = open(sheet_1_path, 'rb')
         reader_1 = csv.reader(stream_1)
         sheet_1_cols = reader_1.next()
         if not sheet_0_cols == sheet_1_cols: raise SystemExit('Map error: '
             'Sheet 1 column names don\'t match sheet 0 column names')
         # Write combined sheet
         writer = csv.writer(sys.stdout)
         writer.writerow(sheet_0_cols)
         def write_sheet(reader):
             for row in reader: writer.writerow(row)
         write_sheet(reader_0)
         write_sheet(reader_1)
         stream_1.close()
         first_path = None
         first_info = None
         for path in paths:
             stream = open(path, 'rb')
             # Get dialect and process first line
             info = csvs.stream_info(stream)
             def write_header(): sys.stdout.write(info.header_line)
             if first_info == None:
                 first_path = path
                 first_info = info
                 write_header()
             else:
                 if not util.classes_eq(info.dialect, first_info.dialect):
                     raise SystemExit('Spreadsheet error: "'+path
                         +'" dialect doesn\'t match "'+first_path+'" dialect')
                 if info.header_line != first_info.header_line: write_header()
                     # not a duplicated header
             # Copy remaining lines
             while True:
                 line = stream.readline()
                 if line == '': break
                 sys.stdout.write(line)
             stream.close()
     main()

Also available in: Unified diff

Project

General

Profile

Revision 1447

Added by Aaron Marcuse-Kubitza almost 13 years ago