少数数据集支配着机器学习研究

标签: 数据 支配 机器学习 | 发表时间:2021-12-06 22:06 | 作者:
出处:https://www.solidot.org
UCLA 和 Google Research 的研究人员在预印本网站发表论文《 Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》(PDF), 指出机器学习研究领域被少数开源数据集支配的现状。研究人员分析了 2015-2020 年之间不同机器学习社区使用的数据集,发现少数数据集被集中使用。在分析 43,140 个样本中,超过五成使用的数据集来自于 12个精英机构。研究人员认为这种高度集中化的趋势带来了实用性、伦理甚至政治方面的问题。研究人员称,计算机视觉受政府影响最大,自然语言处理受最少影响。计算机视觉尤其是脸部识别领域常用的数据集得到了企业、美国军方和中国政府(MS-Celeb-1M、 CASIA-Webface、IJB-A、VggFace2,其中 MS-Celeb-1M 因隐私争议被撤回)的资助。

相关 [数据 支配 机器学习] 推荐:

少数数据集支配着机器学习研究

- - 奇客Solidot–传递最新科技情报
UCLA 和 Google Research 的研究人员在预印本网站发表论文《 Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》(PDF), 指出机器学习研究领域被少数开源数据集支配的现状.

twitter海量数据机器学习解决方案

- - 冰火岛
技术关键点:hadoop, pig, stochastic gradient descent, online learning, ensembles, logistic regression. Twitter分析框架建立在hadoop集群之上,通过实时处理和批处理将数据写入到HDFS. twitter分析除了通过java写mapreduce代码实现以外,大部分是通过Pig来实现.

Google 开源机器学习数据集可视化工具 Facets

- - 开源中国社区最新新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

机器学习中如何处理不平衡数据?

- - 机器之心
假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷. 你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%. 你的老板很惊讶,决定不再测试直接使用你的模型. 几个星期后,他进入你的办公室,拍桌子告诉你你的模型完全没用,一个有缺陷的产品都没发现. 经过一番调查,你发现尽管你们公司的产品中大约有 3.8%的存在缺陷,但你的模型却总是回答「没有缺陷」,也因此准确率达到 96.2%.

大数据/数据挖掘/推荐系统/机器学习相关资源

- - 互联网分析沙龙
Share my personal resources,本文贡献者为Zhe Yu. 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ. 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archive/2013/06/10/3131145.html.

机器学习及大数据相关面试的职责和面试问题

- - IT瘾-bigdata
· 机器学习、大数据相关岗位的职责. 各个企业对这类岗位的命名可能有所不同,比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师,或简称算法工程师,还有的称为搜索/推荐算法工程师,甚至有的并入后台工程师的范畴,视岗位具体要求而定. 机器学习、大数据相关岗位的职责. 根据业务的不同,岗位职责大概分为:.

xLearn:专门针对大规模稀疏数据的机器学习库

- - IT瘾-dev
xLearn does not rely on any third-party library, and hence users can just clone the code and compile it by using cmake. Apart from this, xLearn supports many useful features that has been widely used in the machine learning competitions like cross-validation, early-stop, etc..

[原]Facebook如何运用机器学习进行亿级用户数据处理

- - CSDN人工智能
编译 | 刘畅、尚岩奇、林椿眄. 2017年末,Facebook应用机器学习组发布最新论文,对整个Facebook的机器学习软硬件架构进行了介绍. 纵览全文,我们也可以从中对Facebook各产品的机器学习策略一窥究竟. 论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战,并给出了Facebook的应对策略和解决思路,对相关行业和研究极其有意义.

大数据和AI策略–面向投资的机器学习和另类数据方法(附280页报告)

- - 互联网数据中心-199IT
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌.

为什么一些机器学习模型需要对数据进行归一化? - zhanlijun

- - 博客园_首页
为什么一些机器学习模型需要对数据进行归一化.     针对这个问题参考了wiki的解释: http://en.wikipedia.org/wiki/Feature_scaling. “归一化后有两个好处:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度”. 1 归一化为什么能提高梯度下降法求解最优解的速度.