常见数据集搜索网站(CV方向为主)

一些公开数据集搜索网站

注:括号中数字为该网站截至2020/12/08包含的数据集数量
1.Kaggle(63122): https://www.kaggle.com/datasets
支持关键字搜索,每个数据集都有关联的讨论区
2.亚马逊数据集(203):https://registry.opendata.aws/
支持搜索,数据集存储在AWS上
3.UCI机器学习数据库(559):http://archive.ics.uci.edu/ml/datasets.php
加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库
4.谷歌数据集搜索引擎(需要*):https://toolbox.google.com/datasetsearch
5.微软数据集:https://msropendata.com/
6.公共数据集资源收集:https://github.com/awesomedata/awesome-public-datasets
使用前注意检查许可要求
7.计算机视觉数据(508):https://www.visualdata.io/
8.各国*数据集合
9. Koblenz收集网
10.聚数力:http://dataju.cn/Dataju/web/home
11.BIFROST(数据集搜索工具,需要*):https://datasets.bifrost.ai/
12.Graviti Open Dataset:https://www.graviti.cn/open-datasets
13.其他数据集(视觉方面)
(1)YouTube已标注视频数据集
此数据集的关键特征是为整个视频段提供边框注释。这些边框注释可以用于训练随时间识别,定位和跟踪对象的模型。在视频中,单个带注释的对象可能完全被遮挡,并在以后的帧中返回。单个对象的这些注释有时不能从各个帧识别,但是如果对象被精确地定位和跟踪,则可以在视频的上下文中理解和识别。
论文:https://arxiv.org/abs/1702.00824
数据集下载:https://research.google.com/youtube-bb/
(2)腾讯多标签图像数据集(Tencent ML-Images)
这次开源的ML-Images包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中,规模最大,可满足一般科研机构及中小企业的需求。此前,业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。
数据集下载:https://github.com/Tencent
(3)谷歌地标识别数据集(Google-Landmarks)
数据集中包含200万张图片,描述了3万处全球独特地标,量级是普通的数据集的30倍。
论文地址:https://arxiv.org/abs/1612.06321
数据集地址:https://github.com/tensorflow/models/tree/master/research/delf
(4)吴恩达医学影像数据集(MURA)
该数据集含有4万张人体上肢端的X光片
论文链接:https://arxiv.org/pdf/1712.06957.pdf
(5)斯坦福3D街景数据集
其中包含带有相机姿态的街景数据、8个城市的3D模型和拓展的元数据。这个数据集数据量庞大,街景数据集就包含2500万张图像和1.18亿个匹配的图像对。数据集可用于学习6DOF相机姿态估计/视觉运动、图像匹配及各种三维估计
论文地址:
http://cvgl.stanford.edu/papers/zamir_eccv16.pdf
数据集地址:
https://github.com/amir32002/3D_Street_View
(6)中科院目标追踪数据集(Got-10k)
该数据集包含了超过10,000条视频,主角都是在现实世界里移动的物体,分成560多个类别。物体的边界框全部是手动标记,总计超过150万个。
论文:
https://arxiv.org/abs/1810.11981
数据集地址:
http://got-10k.aitestunion.com/downloads

上一篇:08-04 细分构建机器学习应用程序的流程-数据收集


下一篇:实现鸢尾花数据的读入