小编要从一个挪威网站批量下载1751-2501年的数据(由于数据可能不方便透露,所以隐去了网站信息,用https://***************************************代替)。此网站不支持wget下载,所以小编使用以下两种方法,分享给大家:
首先先找到要批量下载数据所在的具体网页,一般只需要把鼠标放在那个位置可以显示。复制后,将数据文件名共同的部分写出来(如这里的NBF.h0.),之后通过循环把年、月的信息填入,最后加入文件类型.nc文件。(代码有参考和借鉴别人)
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# urllib2_urlopen.py
import urllib.request
import urllib.error
import os
def getLegalUrl(year,mon):
base_url="https://***************************************"
url_preletter='NBF.h0.'
try:
url=base_url+url_preletter+str(year)+'-'+str(mon).zfill(2)+'.nc'
f=urllib.request.urlopen(url)
return url
except urllib.request.URLError:
return " "
def download(url,year,mon):
f=urllib.request.urlopen(url)
data=f.read()
url_preletter = 'NBF.h0.'
pathgz = "E:\\data\\"
with open(os.path.join(pathgz,url_preletter+str(year)+'-'+str(mon).zfill(2)+'.nc'),'wb') as file:
file.write(data)
if __name__ == '__main__':
for year in range(1750,2501):
for mon in range(1,13):
url=getLegalUrl(year,mon)
if url=="":
with open("download.log",'a') as log:
log.write(str(year)+str(mon).zfill(2)+'not found\n')
else:
download(url,year,mon)`
`
由于此代码实际上一边读取文件一边重新写入文件,但实际上这样会下载变慢,而且网络不稳定也会使得数据下载中断。
使用迅雷下载比较快。但是迅雷不好的一点是只有一处通配符,所以不能像代码一样双重循环。所以你需要固定一个时间单位(年or月or日),答主下载800年的数据的话,通配符给了年。如果小于12年,通配符可以给月。如果到日数据可能就还是不太方便。