6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏

标签: 算法 机器学习 人工智能 深度学习 数据挖掘 | 发表时间:2023-02-20 13:56 | 作者:超神经HyperAI
出处:https://segmentfault.com/blogs
内容一览:本期汇总了超神经下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域。这些数据集质量高、数据量大,经历人气认证值得收藏码住。
关键词:数据集 机器翻译 机器视觉

数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义。

HyperAI超神经自上线以来,为数据科学从业者提供了大量优质的公开数据集。 本期内容分享,我们筛选出了 6 个热门数据集, 其总下载次数已达到 32,569 次。 希望这些数据集能进一步为广大开发者服务~

注:本文梳理的数据集均来自为数据科学家服务的网站——超神经
https://hyper.ai/datasets

第 6 名: Tanks Temple 3D 重建数据集
在这里插入图片描述

在这里插入图片描述

Tanks Temple 图像数据集提供高分辨率的视频,研究人员可以从视频中采集图像, 依据图像进行三维重建。 该数据集包括训练数据和测试数据两类,其中测试数据分为中级组和高级组。

第 5 名: DOTA 航拍图像数据集
在这里插入图片描述

在这里插入图片描述

DOTA 全称为 A Large-scale Dataset for Object DeTection in Aerial Images,是一个包含 2,806 张航拍图的图像数据集, 被用于在航拍图像中进行目标检测,发现和评估图像中的物体。

这些图像来源包含不同传感器和平台。每张图像的像素尺寸在 800 800 到 40004000 的范围内,其中包含不同尺度、方向和形状的物体。

往期推送请访问:
DOTA 数据集:2806 张遥感图像,近 19 万个标注实例

第 4 名: VGG-Face2 人脸识别数据集
在这里插入图片描述

在这里插入图片描述

VGG-Face2 是一个人脸图像数据集,包含共计 9131 个人的面部数据,图像均来自 Google 的图片搜索。 数据集中的人在姿势、年龄、种族和职业方面有很大差异。 该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布,相关论文有《Deep Face Recognition》。

第 3 名: UCAS-AOD 遥感影像数据集

在这里插入图片描述

在这里插入图片描述

UCAS-AOD 是一个遥感影像数据集, 用于飞机和车辆检测。 该数据集由国科大于 2014 年首次发布,并于 2015 年补充,相关论文有《Orientation Robust Object Detection in Aerial Images Using Deep Convolutional Neural Network》

第 2 名: OpenMantra 漫画机器翻译数据集

在这里插入图片描述

在这里插入图片描述

OpenMantra 是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(fantacy、romance、battle、mystery、slice of life)的漫画。 数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画, 由东京大学 Mantra 团队发布。

往期推送请查看:
漫画翻译、嵌字 AI,东京大学论文被 AAAI’21 收录

第 1 名: ImageNet 10 图像识别数据集
在这里插入图片描述

在这里插入图片描述

ImageNet 是目前世界上最大的图像识别数据库,由斯坦福大学教授李飞飞等人创建。 主要用于机器视觉领域的图像分类和目标检测。

数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成。该数据集共包含 2.2 万个图像类别,约 1500 万张图片。

往期推送请访问:
当年这个决定,让李飞飞奠定 AI 江湖的女王地位

以上就是本期推荐的 6 个 hyper.ai 高频下载数据集,更多数据科学优质公开数据集,可访问以下链接下载: https://hyper.ai/datasets

—— 完 ——

相关 [经典 机器学习 数据] 推荐:

6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏

- - SegmentFault 最新的文章
内容一览:本期汇总了超神经下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域. 这些数据集质量高、数据量大,经历人气认证值得收藏码住. 关键词:数据集 机器翻译 机器视觉. 数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义. HyperAI超神经自上线以来,为数据科学从业者提供了大量优质的公开数据集.

twitter海量数据机器学习解决方案

- - 冰火岛
技术关键点:hadoop, pig, stochastic gradient descent, online learning, ensembles, logistic regression. Twitter分析框架建立在hadoop集群之上,通过实时处理和批处理将数据写入到HDFS. twitter分析除了通过java写mapreduce代码实现以外,大部分是通过Pig来实现.

Google 开源机器学习数据集可视化工具 Facets

- - 开源中国社区最新新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

机器学习中如何处理不平衡数据?

- - 机器之心
假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷. 你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%. 你的老板很惊讶,决定不再测试直接使用你的模型. 几个星期后,他进入你的办公室,拍桌子告诉你你的模型完全没用,一个有缺陷的产品都没发现. 经过一番调查,你发现尽管你们公司的产品中大约有 3.8%的存在缺陷,但你的模型却总是回答「没有缺陷」,也因此准确率达到 96.2%.

少数数据集支配着机器学习研究

- - 奇客Solidot–传递最新科技情报
UCLA 和 Google Research 的研究人员在预印本网站发表论文《 Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》(PDF), 指出机器学习研究领域被少数开源数据集支配的现状.

经典机器学习 | 如何做到预流失与流失挽回?

- - 机器之心
导语:预流失用户,即有流失倾向,但还没有开始真正流失的用户. 相较于流失用户而言,预流失用户处于观望阶段,或许对现有产品有所顾虑,或许对于潜在的流向(竞品)有所顾虑,或许是在等待些什么;流失用户,即已经流失了的用户,或许是因为游戏弃坑,或许选择了其他产品,用户肯定还在玩些什么,只是不再来你这儿了. 文章介绍了如何通过经典的机器学习(Machine Learning, ML)方法来寻找那些流失可能性比较高的用户、寻找那些回流意愿比较大的用户.

大数据/数据挖掘/推荐系统/机器学习相关资源

- - 互联网分析沙龙
Share my personal resources,本文贡献者为Zhe Yu. 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ. 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html.

机器学习及大数据相关面试的职责和面试问题

- - IT瘾-bigdata
· 机器学习、大数据相关岗位的职责. 各个企业对这类岗位的命名可能有所不同,比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师,或简称算法工程师,还有的称为搜索/推荐算法工程师,甚至有的并入后台工程师的范畴,视岗位具体要求而定. 机器学习、大数据相关岗位的职责. 根据业务的不同,岗位职责大概分为:.

xLearn:专门针对大规模稀疏数据的机器学习库

- - IT瘾-dev
xLearn does not rely on any third-party library, and hence users can just clone the code and compile it by using cmake. Apart from this, xLearn supports many useful features that has been widely used in the machine learning competitions like cross-validation, early-stop, etc..

[原]Facebook如何运用机器学习进行亿级用户数据处理

- - CSDN人工智能
编译 | 刘畅、尚岩奇、林椿眄. 2017年末,Facebook应用机器学习组发布最新论文,对整个Facebook的机器学习软硬件架构进行了介绍. 纵览全文,我们也可以从中对Facebook各产品的机器学习策略一窥究竟. 论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战,并给出了Facebook的应对策略和解决思路,对相关行业和研究极其有意义.