/lib/tnrs.py - Diff - BIEN 3 - NCEAS Projects

« Previous | Next »

Revision 5120

Added by Aaron Marcuse-Kubitza about 12 years ago

tnrs.py: tnrs_request(): Profile the TNRS request

     import urllib2
     import exc
     import profiling
     import streams
     # Config
-...
         return match.groups()
     def tnrs_request(taxons, debug=False):
         assert len(taxons) <= max_taxons
         taxon_ct = len(taxons)
         assert taxon_ct <= max_taxons
         # Logging
         def debug_log(label, str_=''):
-...
                 except urllib2.HTTPError: pass # try again
                 pause *= pause_growth_factor
         debug_log('Submit')
         request = submission_request_template.replace('[taxons]',
             r'\\n'.join(map(gwt_encode, taxons))) # double-escape \n
         response, response_info = do_request(request)
         key, = parse_response('submission', submission_response_pattern, response,
             response, response_info)
         debug_log('key', key)
         key_enc = gwt_encode(key)
         debug_log('Retrieve')
         request = retrieval_request_template.replace('[key]', key_enc)
         response, response_info = do_repeated_request(request)
         parse_response('retrieval', retrieval_response_pattern, response, response,
             response_info)
         session_id, = parse_response('retrieval info',
             retrieval_response_info_pattern, response_info, response, response_info)
         debug_log('session_id', session_id)
         headers['Cookie'] = 'JSESSIONID='+session_id
         # The output of the retrieve step is unusable because the array has
         # different lengths depending on the taxonomic ranks present in the provided
         # taxon name. The extra download step is therefore necessary.
         debug_log('Prepare download')
         request = download_request_template.replace('[key]', key_enc)
         response, response_info = do_request(request)
         csv_url, = parse_response('download', download_response_pattern, response,
             response, response_info)
         csv_url += download_url_suffix
         debug_log('csv_url', csv_url)
         debug_log('Download')
         response = urllib2.urlopen(urllib2.Request(csv_url))
         debug_log('response info', str(response.info()))
         return response
         profiler = profiling.ItersProfiler(start_now=True, iter_text='name')
         try:
             debug_log('Submit')
             request = submission_request_template.replace('[taxons]',
                 r'\\n'.join(map(gwt_encode, taxons))) # double-escape \n
             response, response_info = do_request(request)
             key, = parse_response('submission', submission_response_pattern, response,
                 response, response_info)
             debug_log('key', key)
             key_enc = gwt_encode(key)
             debug_log('Retrieve')
             request = retrieval_request_template.replace('[key]', key_enc)
             response, response_info = do_repeated_request(request)
             parse_response('retrieval', retrieval_response_pattern, response, response,
                 response_info)
             session_id, = parse_response('retrieval info',
                 retrieval_response_info_pattern, response_info, response, response_info)
             debug_log('session_id', session_id)
             headers['Cookie'] = 'JSESSIONID='+session_id
             # The output of the retrieve step is unusable because the array has
             # different lengths depending on the taxonomic ranks present in the provided
             # taxon name. The extra download step is therefore necessary.
             debug_log('Prepare download')
             request = download_request_template.replace('[key]', key_enc)
             response, response_info = do_request(request)
             csv_url, = parse_response('download', download_response_pattern, response,
                 response, response_info)
             csv_url += download_url_suffix
             debug_log('csv_url', csv_url)
             debug_log('Download')
             response = urllib2.urlopen(urllib2.Request(csv_url))
             debug_log('response info', str(response.info()))
             return response
         finally:
             profiler.stop(taxon_ct)
             sys.stderr.write(profiler.msg()+'\n')
     def repeated_tnrs_request(taxons, debug=False, **kw_args):
         for try_num in xrange(2):

Also available in: Unified diff

Project

General

Profile

Revision 5120

Added by Aaron Marcuse-Kubitza about 12 years ago