/ - Diff - BIEN 3 - NCEAS Projects

« Previous | Next »

Revision 3102

Added by Aaron Marcuse-Kubitza about 12 years ago

sql_io.py: put_table(): Use sql.distinct_table() to uniquify input table, instead of DISTINCT ON. This avoids letting PostgreSQL create a sort temp table to store the output of the DISTINCT ON, which is not automatically removed until the end of the connection, causing database bloat that can use up the available disk space.

         conds = set()
         distinct_on = sql_gen.ColDict(db, out_table)
         def mk_main_select(joins, cols):
             distinct_on_cols = [c.to_Col() for c in distinct_on.values()]
             return sql.mk_select(db, joins, cols, conds, distinct_on_cols,
                 limit=limit_ref[0], start=0)
             return sql.mk_select(db, joins, cols, conds, limit=limit_ref[0],
                 start=0)
         exc_strs = set()
         def log_exc(e):
-...
         insert_in_pkeys = insert_pkeys_table('in')
         # Do inserts and selects
         insert_in_table = in_table
         join_cols = sql_gen.ColDict(db, out_table)
         while True:
             if limit_ref[0] == 0: # special case
-...
             log_debug('Trying to insert new rows')
             # Prepare to insert new rows
             insert_joins = input_joins[:] # don't modify original!
             insert_args = dict(recover=True, cacheable=False)
             if has_joins:
                 insert_args.update(dict(ignore=True))
             else:
                 insert_args.update(dict(returning=out_pkey, into=insert_out_pkeys))
             main_select = mk_main_select(insert_joins, mapping.values())
             main_select = mk_main_select([insert_in_table],
                 [sql_gen.with_table(c, insert_in_table) for c in mapping.values()])
             def main_insert():
                 if is_function:
-...
                 log_debug('Ignoring existing rows, comparing on these columns:\n'
                     +strings.as_inline_table(join_cols, ustr=col_ustr))
                 assert join_cols != old_join_cols # avoid infinite loops
                 # Uniquify input table to avoid internal duplicate keys
                 insert_in_table = sql.distinct_table(db, insert_in_table,
                     filter(sql_gen.is_table_col, distinct_on.values()))
             except sql.NullValueException, e:
                 log_exc(e)
-...
         assert sql.table_row_count(db, into) == sql.table_row_count(db, in_table)
         sql.empty_temp(db, in_table)
         sql.empty_temp(db, set([in_table, insert_in_table]))
         srcs = []
         if is_func: srcs = sql_gen.cols_srcs(in_cols)

Also available in: Unified diff

Project

General

Profile

Revision 3102

Added by Aaron Marcuse-Kubitza about 12 years ago