常见数据集网站
UCI(http://archive.ics.uci.edu/ml/index.php):
UCI数据库是加州大学欧文分校提出的用于机器学习的数据库,如果正在寻找与机器学习库相关的数据集,通常是第一个去的地方。
Kaggle(https://www.kaggle.com):
另一个找到免费数据集的好地方。
天池(天池大数据众智平台-阿里云天池):
中国著名的数据科学竞赛平台,也提供数据。
GitHub(https://github.com):
一个非常全面的数据获取渠道,宝藏网站。
data.world(https://data.world/)
data.world是一个拥有大量免费数据集的网站,包含金融,犯罪,经济,推特,美国宇航局等的各种各样的数据集。
FiveThirthyEight(https://fivethirtyeight.com/)
FiveThirthyEight大量存储免费数据集和专门用于数据科学的丰富文章。
AWS(https://aws.amazon.com/cn):
亚马逊的跨科学云数据平台。
较冷门的数据库网站
CEIC(https://www.ceicdata.com/zh-hans):
能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。
万得(https://www.wind.com.cn):
万得的数据内容涵盖股票、基金、债券、外汇、保险、期货、金融衍生品、现货交易、宏观经济、财经新闻等领域。
BuzzFeed(https://www.buzzfeed.com/)
BuzzFeed是一家新闻和娱乐内容的跨平台数字媒体公司,也提供免费数据集。
国家统计局(http://www.stats.gov.cn):
国家统计局,包含了我国经济、人口、民生等多个方面的数据。
中国统计信息网(http://www.cnstats.org):
国家统计局的官方网站,汇集了全国各级*各年度的国民经济和社会发展统计信息。
Data.gov(https://www.data.gov/)
Data.gov是美国*开源数据的网站。
DataCastle(https://js.dclab.run/v2/index.html):
DataCastle是一个偏竞赛的数据集网站。
Socrata OpenData(https://opendata.socrata.com/)
Socrata OpenData是一个包含多个免费数据集的网站。
Figshare(https://figshare.com):
Figshare 是一个基于云计算技术的在线数据知识库。
Quandl(https://www.quandl.com/)
Quandl是一个经济和财务数据库,提供已经清理过的数据。
Datafountain(https://www.datafountain.cn):
DataFountain也是一个偏竞赛的数据集网站。
Reddit(https://www.reddit.com/r/datasets/)
Reddit是一个受欢迎的社交新闻网站,也致力于分享有趣的数据集。
搜数网(http://www.soshoo.com/index.do):
搜数网汇集了中国资讯行自1992年以来收集的所有统计和调查数据,内容全面、可靠。
学术洪流(天池(天池大数据众智平台-阿里云天池)
Academic Torrents是研究人员共享数据的平台。