Google 开源机器学习数据集可视化工具 Facets

标签: 综合新闻 | 发表时间:2017-07-18 17:10 | 作者:
出处:http://www.oschina.net/?from=rss

ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集。为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具。

Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像。Facets Overview 可用于可视化数据的每一个特征,Facets Dive 用来探索个别的数据观察集。

除了开放 Facets 源码,Google 还创建了 演示网站

具体来看,Facets Overview 可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如训练集和测试集。阻碍机器学习的常见数据问题被推到最前端,比如出乎意料的特征值、具有高比例遗失值的特征、带有不平衡分布的特征,数据集之间的特征分布偏差等等。

Facets Dive 则提供了一个易于定制的直观界面,用于探索数据集中不同特征数据点之间的关系。它是一种交互式探索多达数万个数据点的工具,允许用户在高级概述和低级细节之间进行无缝切换。通过 Facets Dive,你可以控制位置、颜色和视觉表现。每个示例在可视化中被表示为单个项目,并且可以通过其特征值在多个维度上通过 faceting/bucketing 来定位点。通过结合细分和过滤,Dive 可以轻松地在复杂数据集中识别样式和异常值。

相关 [google 开源 机器学习] 推荐:

Google 开源机器学习数据集可视化工具 Facets

- - 开源中国社区最新新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

当Google谈论机器学习时,它在谈论什么?

- - 博客园_新闻
Google 一年一度的开发者大会 I/O 2018,本周在硅谷隆重上演. 这你已经知道了,关于大会报道,请移步 这里. 开幕前一天,Google 在总部举办了一堂名为“机器学习 101”的人工智能课,尝试用最接地气的方法介绍谷歌在机器学习方面正在做的事情. 这堂课的老师 克里斯汀·罗伯森 (Christine Robson) 是 Google AI(原 Google Research)研究员,主攻人机交互方向.

Google 发布关于机器学习工程的最佳实践

- -
本文档旨在帮助已掌握机器学习基础知识的人员从 Google 机器学习的最佳实践中受益. 它介绍了一种机器学习样式,类似于 Google C++ 样式指南和其他常用的实用编程指南. 如果您学习过机器学习方面的课程,或者拥有机器学习模型的构建或开发经验,则具备阅读本文档所必需的背景知识. 在我们讨论有效的机器学习的过程中,会反复提到下列术语:.

前提条件和准备工作  |  机器学习速成课程  |  Google Developers

- -
我对机器学习知之甚少或一无所知. 我们建议您按顺序学习所有资料. 我对机器学习有一些了解,但想了解更新、更全面的机器学习知识. 机器学习速成课程是很好的复习进修资料. 您可以按顺序学习所有单元,也可以只学习您感兴趣的单元. 我很了解机器学习,但对 TensorFlow 知之甚少或一无所知. 很多资料对您来说可能太初级了.

10个关于人工智能和机器学习的有趣开源项目

- - 极客521 | 极客521
本文简要介绍了10款    Quora上网友推荐的 人工智能和机器学习领域方面的开源项目. GraphLab是一种新的面向机器学习的并行框架. GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.

10款人工智能和机器学习领域方面的开源项目

- - 灯火阑珊
GraphLab是一种新的面向机器学习的并行框架. GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.

贾扬清:Caffe2go是Facebook机器学习产品的核心 将开源

- - 博客园_新闻
Caffe 作者,Facebook 研究科学家贾扬清 11 月 8 日在 Facebook 官方网站上发文,介绍了他在 Facebook 最新的机器学习研究成果——Caffe2go. 这一款规模更小但训练速度更快、对计算性能要求较低的机器学习框架使得在手机上运行并训练神经网络模型成为可能. Caffe2go 已经成为 Facebook 机器学习的核心技术.

Google开源LevelDB

- 酿泉 - Solidot
Google宣布在BSD许可证下开源其键值存储引擎LevelDB. LevelDB C++库可用于多种不同环境,如被浏览器用于存储最近访问的网页缓存,或者被操作系统使用去储存安装的软件包和依赖包清单,或被应用程序用于存储用户设置. Google称,即将发布的新版Chrome浏览器,就包含了基于LevelDB的IndexedDB HTML5 API实现.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.