68 款大规模机器学习数据集，涵盖 CV、语音、NLP | 十年资源集

标签： tuicool | 发表时间：2019-03-23 00:00 | 作者：

出处：http://itindex.net/relian

参加 2019 Python开发者日，请扫码咨询 ↑↑↑

作者 | 琥珀

出品 | AI科技大本营（ID:rgznai100）

此前营长为大家分享过不少机器学习相关数据集的资源，例如 Mozilla 的 1400 小时开源语音数据集； ApolloScape 的大规模自动驾驶数据集；腾讯 AI Lab 的 “Tencent ML-Images” 项目，甚至还有谷歌团队推出的 Google Dataset Search（Google 数据集搜索）……

对于日常从事模型训练的研究人员来讲，无论是图像处理还是语音识别，都离不开一些高质量的数据集，通过它们以改善模型的性能。

近日，reddit 论坛上，一位网友发帖分享了datasetlist.com的网站链接，得到了不少同行们的点赞。据了解上面集合了从 2009 年 ImageNet 发布以来共计 68 项机器学习相关的大规模数据集，囊括计算机视觉（46 项）、自然语言处理（18 项）、语音（4 项）三大类别，帮助用户快速找到相应的数据集。由此，我们还可以看到自 2015 年以来，大规模数据集的不断涌现也暗示着人工智能技术作为集大成者的快速演进。

这套数据集搜索列表的出现，也满足了不少强迫症患者对于选择 / 整理数据集的想法。不过，也正如这位网友所言：这个数据集列表的形式将有待完善和丰富，设计这个网页的目的也是希望接下来不断更新新的数据集，同时，用户也可以通过邮箱、Twitter、Facebook 等方式订阅以获取最新内容。

下面，让营长介绍下该数据集列表的主要内容：

语音识别：

Mozilla Common Voice

2019 年 3 月 1 日，由 Mozilla 基金会发起的 Common Voice 项目，发布新版语音识别数据集，包括来自 42000 名贡献者，超过 1400 小时的语音样本数据，涵盖包括英语、法语、德语、荷兰语、汉语在内的 18 种语言。

地址：https://voice.mozilla.org/zh-CN

NSynth
Google Audioset
LibriSpeech

计算机视觉

IBM Diversity in Faces Dataset

IBM 推出的“人脸多样性”（Diversity in Faces Dataset，DiF）是一个庞大而多样化的数据集，与以前的数据集相比，DiF 数据集提供了更均衡的分布和更广泛的面部图像覆盖率。DiFferences 提供了 100 万注释的数据集人类面部图像。

地址：

https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/

NVIDIA Flickr-Faces-HQ 数据集

英伟达推出的 Flicker 人脸高清数据集（FFHQ）由 70,000 个高质量的 PNG 格式图像组成，分辨率为 1024*1024。这些图片在年龄、种族和图像背景方面有很强的多样性，并且还有如眼镜、太阳镜、帽子等元素。

地址：

https://github.com/NVlabs/ffhq-dataset

Google Open Images V4

Open Images 是一个包含约 900 万个 URL 的数据集，由谷歌在 2018 年 4 月 30 日开放，它包含在 190 万张图片上针对 600 个类别的 1540 万个边框盒。

地址：

https://storage.googleapis.com/openimages/web/index.html

Tencent ML- Images

Tencent ML- Images 是最大的开源多标签图像数据集，包括 17,609,752 个训练和 88,739 个验证图像 URL，最多可注释 11,166 个类别。

地址：

https://github.com/Tencent/tencent-ml-images

Youtube-8M 2018

Youtube-8M 2018 是一个大型标记视频数据集，由 600 万个 YouTube 视频 ID 组成，目前具有 4700 多个视觉实体标签，同时它还配备了数十亿帧和音频片段的预先计算的视听功能。

地址：

https://research.google.com/youtube8m/index.html

Fashion MNIST

Fashion-MNIST 由德国研究机构 Zalando Research 公布，包含 60000 个样本，测试集包含 10000 个样本，分为 10 类，每一个都是 28×28 的灰度图。

地址：

https://github.com/zalandoresearch/fashion-mnist

当然，此外还有 MegaFace、ImageNet 等非常经典的数据集，以下营长就不一一列举了。

GQA
Berkeley Deep Drive (BDD100K)
HighD - The Highway Drone Data
Comma 2k19
HD1K Benchmark Suite
VQA Visual Question Answering
ApolloScape
nuScenes
MURA
Synscapes
fastMRI Dataset
Mapillary Vistas
Places2
Youtube-BoundingBoxes
ADE20K
WildDash
Oxford RobotCar Dataset
Recipe1M
MegaFace
SceneNet RGB-D
MS-Celeb-1M
SYNTHIA
UMD Faces
comma.ai
Spacenet
CompCars
ShapeNet
WIDER Face
WIDER
LSUN
Visual Genome
Cityscapes
ACTIVITYNET
COCO
Yahoo Flickr Creative Commons 100M
Pascal part
Flickr30k
KITTI
SVHN Street View House Numbers
ImageNet

自然语言处理

SQuAD

斯坦福问答数据集（SQuAD）是一个全新的阅读理解数据集，由工作人员基于一系列维基百科文章中的提问和答案组成，其中每个问题的答案是来自相应阅读段落的一段文本片段或区间。其中包括超过 500 篇文章中超过 100,000 个问答配对，使得 SQuAD 显著大于以前的阅读理解数据集。SQuAD2.0 结合了 SQuAD1.1 中的 100,000 个问题。

地址：

https://rajpurkar.github.io/SQuAD-explorer/

此外还有：

MultiNLI
CoQA
Spider 1.0
HotpotQA
Question Pairs (Quora)
Yelp open dataset
Facebook bAbI
MS MARCO
NewsQA
Datasets from DBPedia, Amazon, Yelp, Yahoo!, Sogou, a
DeepMind Q&A dataset
Text Classification Datasets
SNLI
Billion Words
Stanford Sentiment Treebank
Large Movie Review Dataset
Princeton WordNet

（本文为 AI科技大本营原创文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

68 款大规模机器学习数据集，涵盖 CV、语音、NLP | 十年资源集

- - IT瘾-tuicool

参加 2019 Python开发者日，请扫码咨询 ↑↑↑. 出品 | AI科技大本营（ID:rgznai100）. 此前营长为大家分享过不少机器学习相关数据集的资源，例如 Mozilla 的 1400 小时开源语音数据集； ApolloScape 的大规模自动驾驶数据集；腾讯 AI Lab 的 “Tencent ML-Images” 项目，甚至还有谷歌团队推出的 Google Dataset Search（Google 数据集搜索）…….

twitter海量数据机器学习解决方案

- - 冰火岛

技术关键点：hadoop， pig， stochastic gradient descent, online learning, ensembles, logistic regression. Twitter分析框架建立在hadoop集群之上，通过实时处理和批处理将数据写入到HDFS. twitter分析除了通过java写mapreduce代码实现以外，大部分是通过Pig来实现.

Google 开源机器学习数据集可视化工具 Facets

- - 开源中国社区最新新闻

ML 数据集可以包含数亿个数据点，每个数据点由数百（甚至数千）的特征组成，几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集，谷歌开源了 Facets，一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ，允许用户以不同的粒度查看其数据的整体图像.

机器学习中如何处理不平衡数据？

- - 机器之心

假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷. 你使用自己喜欢的分类器在数据上进行训练后，准确率达到了 96.2％. 你的老板很惊讶，决定不再测试直接使用你的模型. 几个星期后，他进入你的办公室，拍桌子告诉你你的模型完全没用，一个有缺陷的产品都没发现. 经过一番调查，你发现尽管你们公司的产品中大约有 3.8％的存在缺陷，但你的模型却总是回答「没有缺陷」，也因此准确率达到 96.2％.

少数数据集支配着机器学习研究

- - 奇客Solidot–传递最新科技情报

UCLA 和 Google Research 的研究人员在预印本网站发表论文《 Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》（PDF），指出机器学习研究领域被少数开源数据集支配的现状.

大数据/数据挖掘/推荐系统/机器学习相关资源

- - 互联网分析沙龙

Share my personal resources，本文贡献者为Zhe Yu. 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ. 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html.

机器学习及大数据相关面试的职责和面试问题

- - IT瘾-bigdata

· 机器学习、大数据相关岗位的职责. 各个企业对这类岗位的命名可能有所不同，比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师，或简称算法工程师，还有的称为搜索/推荐算法工程师，甚至有的并入后台工程师的范畴，视岗位具体要求而定. 机器学习、大数据相关岗位的职责. 根据业务的不同，岗位职责大概分为：.

xLearn：专门针对大规模稀疏数据的机器学习库

- - IT瘾-dev

xLearn does not rely on any third-party library, and hence users can just clone the code and compile it by using cmake. Apart from this, xLearn supports many useful features that has been widely used in the machine learning competitions like cross-validation, early-stop, etc..

[原]Facebook如何运用机器学习进行亿级用户数据处理

- - CSDN人工智能

编译 | 刘畅、尚岩奇、林椿眄. 2017年末，Facebook应用机器学习组发布最新论文，对整个Facebook的机器学习软硬件架构进行了介绍. 纵览全文，我们也可以从中对Facebook各产品的机器学习策略一窥究竟. 论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战，并给出了Facebook的应对策略和解决思路，对相关行业和研究极其有意义.

大数据和AI策略–面向投资的机器学习和另类数据方法（附280页报告）

- - 互联网数据中心-199IT

J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》，极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来，对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据，特别是另类数据集的构建和利用，已经极大地改变了投资领域的面貌.

68 款大规模机器学习数据集，涵盖 CV、语音、NLP | 十年资源集

参加 2019 Python开发者日，请扫码咨询 ↑↑↑

Mozilla Common Voice

IBM Diversity in Faces Dataset

NVIDIA Flickr-Faces-HQ 数据集

Google Open Images V4

Tencent ML- Images

Youtube-8M 2018

Fashion MNIST

SQuAD

精彩推荐

推荐阅读：

相关 [机器学习数据 cv] 推荐：

68 款大规模机器学习数据集，涵盖 CV、语音、NLP | 十年资源集

twitter海量数据机器学习解决方案

Google 开源机器学习数据集可视化工具 Facets

机器学习中如何处理不平衡数据？

少数数据集支配着机器学习研究

大数据/数据挖掘/推荐系统/机器学习相关资源

机器学习及大数据相关面试的职责和面试问题

xLearn：专门针对大规模稀疏数据的机器学习库

[原]Facebook如何运用机器学习进行亿级用户数据处理

大数据和AI策略–面向投资的机器学习和另类数据方法（附280页报告）

相关文章

订阅

68 款大规模机器学习数据集，涵盖 CV、语音、NLP | 十年资源集

参加 2019 Python开发者日，请扫码咨询 ↑↑↑

Mozilla Common Voice

IBM Diversity in Faces Dataset

NVIDIA Flickr-Faces-HQ 数据集

Google Open Images V4

Tencent ML- Images

Youtube-8M 2018

Fashion MNIST

SQuAD

精彩推荐

推荐阅读：

相关 [机器学习 数据 cv] 推荐：

相关文章

订阅

相关 [机器学习数据 cv] 推荐：