Google 开源机器学习数据集可视化工具 Facets

标签: 综合新闻 | 发表时间:2017-07-18 17:10 | 作者:
出处:http://www.oschina.net/?from=rss

ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集。为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具。

Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像。Facets Overview 可用于可视化数据的每一个特征,Facets Dive 用来探索个别的数据观察集。

除了开放 Facets 源码,Google 还创建了 演示网站

具体来看,Facets Overview 可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如训练集和测试集。阻碍机器学习的常见数据问题被推到最前端,比如出乎意料的特征值、具有高比例遗失值的特征、带有不平衡分布的特征,数据集之间的特征分布偏差等等。

Facets Dive 则提供了一个易于定制的直观界面,用于探索数据集中不同特征数据点之间的关系。它是一种交互式探索多达数万个数据点的工具,允许用户在高级概述和低级细节之间进行无缝切换。通过 Facets Dive,你可以控制位置、颜色和视觉表现。每个示例在可视化中被表示为单个项目,并且可以通过其特征值在多个维度上通过 faceting/bucketing 来定位点。通过结合细分和过滤,Dive 可以轻松地在复杂数据集中识别样式和异常值。

相关 [google 开源 机器学习] 推荐:

Google 开源机器学习数据集可视化工具 Facets

- - 开源中国社区最新新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

当Google谈论机器学习时,它在谈论什么?

- - 博客园_新闻
Google 一年一度的开发者大会 I/O 2018,本周在硅谷隆重上演. 这你已经知道了,关于大会报道,请移步 这里. 开幕前一天,Google 在总部举办了一堂名为“机器学习 101”的人工智能课,尝试用最接地气的方法介绍谷歌在机器学习方面正在做的事情. 这堂课的老师 克里斯汀·罗伯森 (Christine Robson) 是 Google AI(原 Google Research)研究员,主攻人机交互方向.

Google 发布关于机器学习工程的最佳实践

- -
本文档旨在帮助已掌握机器学习基础知识的人员从 Google 机器学习的最佳实践中受益. 它介绍了一种机器学习样式,类似于 Google C++ 样式指南和其他常用的实用编程指南. 如果您学习过机器学习方面的课程,或者拥有机器学习模型的构建或开发经验,则具备阅读本文档所必需的背景知识. 在我们讨论有效的机器学习的过程中,会反复提到下列术语:.

微软开源可解释机器学习工具包lnterpretML

- - 雷锋网
【 图片来源: Microsoft Research Blog  所有者:Microsoft Research Blog 】. 雷锋网按:人类创造出人工智能,并且被人工智能影响着自己的生活. 如果人工智能的行为具有可理解性,那么人类可以更进一步地利用人工智能. 近期,微软研究院就机器学习的可理解性发表了相关文章,雷锋网全文编译如下.

前提条件和准备工作  |  机器学习速成课程  |  Google Developers

- -
我对机器学习知之甚少或一无所知. 我们建议您按顺序学习所有资料. 我对机器学习有一些了解,但想了解更新、更全面的机器学习知识. 机器学习速成课程是很好的复习进修资料. 您可以按顺序学习所有单元,也可以只学习您感兴趣的单元. 我很了解机器学习,但对 TensorFlow 知之甚少或一无所知. 很多资料对您来说可能太初级了.

10个关于人工智能和机器学习的有趣开源项目

- - 极客521 | 极客521
本文简要介绍了10款    Quora上网友推荐的 人工智能和机器学习领域方面的开源项目. GraphLab是一种新的面向机器学习的并行框架. GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.

10款人工智能和机器学习领域方面的开源项目

- - 灯火阑珊
GraphLab是一种新的面向机器学习的并行框架. GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow、Adobe、Zynga、Pandora、Bosch、ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统、欺诈监测系统、情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.

贾扬清:Caffe2go是Facebook机器学习产品的核心 将开源

- - 博客园_新闻
Caffe 作者,Facebook 研究科学家贾扬清 11 月 8 日在 Facebook 官方网站上发文,介绍了他在 Facebook 最新的机器学习研究成果——Caffe2go. 这一款规模更小但训练速度更快、对计算性能要求较低的机器学习框架使得在手机上运行并训练神经网络模型成为可能. Caffe2go 已经成为 Facebook 机器学习的核心技术.

这25个开源机器学习项目,一般人我不告诉Ta

- - 博客园_新闻
本文为 AI 研习社编译的技术博客,原标题 :. 作者  Khoa Pham. 翻译  狒狒   校对  姚秀清 整理  菠萝妹. 很有启发性的 25 个开源机器学习项目. 在过去几年中,机器学习开辟了很多新的领域,出现了很多高级应用案例:Facebook 的脸部识别、Netflix 的电影推荐、PrimaAI 的图像风格转移、Siri 的语音识别、Google Allo 的自然语言处理等等.

Google开源LevelDB

- 酿泉 - Solidot
Google宣布在BSD许可证下开源其键值存储引擎LevelDB. LevelDB C++库可用于多种不同环境,如被浏览器用于存储最近访问的网页缓存,或者被操作系统使用去储存安装的软件包和依赖包清单,或被应用程序用于存储用户设置. Google称,即将发布的新版Chrome浏览器,就包含了基于LevelDB的IndexedDB HTML5 API实现.