Google 开源机器学习数据集可视化工具 Facets

标签: 综合新闻 | 发表时间:2017-07-18 09:10 | 作者:
分享到:
出处:http://www.oschina.net/?from=rss

ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集。为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具。

Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像。Facets Overview 可用于可视化数据的每一个特征,Facets Dive 用来探索个别的数据观察集。

除了开放 Facets 源码,Google 还创建了 演示网站

具体来看,Facets Overview 可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如训练集和测试集。阻碍机器学习的常见数据问题被推到最前端,比如出乎意料的特征值、具有高比例遗失值的特征、带有不平衡分布的特征,数据集之间的特征分布偏差等等。

Facets Dive 则提供了一个易于定制的直观界面,用于探索数据集中不同特征数据点之间的关系。它是一种交互式探索多达数万个数据点的工具,允许用户在高级概述和低级细节之间进行无缝切换。通过 Facets Dive,你可以控制位置、颜色和视觉表现。每个示例在可视化中被表示为单个项目,并且可以通过其特征值在多个维度上通过 faceting/bucketing 来定位点。通过结合细分和过滤,Dive 可以轻松地在复杂数据集中识别样式和异常值。

相关 [google 开源 机器学习] 推荐:

Google 开源机器学习数据集可视化工具 Facets

- - 开源中国社区最新新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

10个关于人工智能和机器学习的有趣开源项目

- - 极客521 | 极客521
本文简要介绍了10款    Quora上网友推荐的 人工智能和机器学习领域方面的开源项目. GraphLab是一种新的面向机器学习的并行框架. GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.

10款人工智能和机器学习领域方面的开源项目

- - 灯火阑珊
GraphLab是一种新的面向机器学习的并行框架. GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.

贾扬清:Caffe2go是Facebook机器学习产品的核心 将开源

- - 博客园_新闻
Caffe 作者,Facebook 研究科学家贾扬清 11 月 8 日在 Facebook 官方网站上发文,介绍了他在 Facebook 最新的机器学习研究成果——Caffe2go. 这一款规模更小但训练速度更快、对计算性能要求较低的机器学习框架使得在手机上运行并训练神经网络模型成为可能. Caffe2go 已经成为 Facebook 机器学习的核心技术.

Google开源LevelDB

- 酿泉 - Solidot
Google宣布在BSD许可证下开源其键值存储引擎LevelDB. LevelDB C++库可用于多种不同环境,如被浏览器用于存储最近访问的网页缓存,或者被操作系统使用去储存安装的软件包和依赖包清单,或被应用程序用于存储用户设置. Google称,即将发布的新版Chrome浏览器,就包含了基于LevelDB的IndexedDB HTML5 API实现.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

Chris diBona 谈 Google 与开源及 Ubuntu

- Riku - Wow! Ubuntu
英文原文:Google: "Android is the Linux desktop dream come true". 原作者:Andreas Proschofsky / 译者:Riku. 这篇文章是由 derStandard.at 网站记者 Andreas Proschofsky 撰写,主要内容是今年 5 月中旬在 Googles I/O 会议上对 Google 开源主管 Chris DiBona 的采访总结.

Google正式开源LevelDB项目

- Jie - 新闻 - LUPA开源社区
  Google 宣布 LevelDB 项目开源,使用的开源授权协议为 BSD.   Leveldb是一个google实现的非常高效的kv数据库,目前的版本1.2能够支持billion级别的数据量了. 在这个数量级别下还有着非常高的性能,主要归功.

开源第三方 Google Dictionary 应用

- SotongDJ - 谷奥——探寻谷歌的奥秘
感谢作者 easisee 的自爆. easisee利用非官方API制作了一个第三方的 Google Dictionary 应用,跟之前我们报道过的那个山寨Google Dictionary不同,这个支持了原有的各种语言,并使用 HTML5,使得iOS和Android设备上即便不安装 flash 也可以直接播放语音,另外可以设定为自定义搜索引擎.