机器学习在互联网应用面临的 10 大挑战

标签: 算法学术 精华 algorithm machine learning | 发表时间:2012-05-16 00:58 | 作者:clickstone
出处:http://www.resyschina.com

原内容出自:@张栋_机器学习  http://weibo.com/1686830902/xAkL3EV4p

1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …

2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,spam 网站等)的产生是动态的,不平稳随机过程 …

3~4:高数量和高质量 “标定数据” 是机器学习效果的保障,但是获取标定数据需要耗费大量人力和财力。而且,人会出错,人有主观性。如何获取高数量和高质量标定数据,或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …

5:”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页,需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台,和算法设计紧密相关 …

6:“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间:比如,Google 某个模型更新一次需要几千台机器,大约训练半年时间。但是,线上使用模型的时候 要求一定要 “快,实时 (real-time)” …

7: 互联网 每时每刻 都在产生大量新数据,要求模型随之不停更新,所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一

8:“Cold- Start” (冷启动) 是互联网应用的典型问题:一个好互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多 … 进入 “良性循环”。对于一个新产品,在初期,要面临数据不足的 “冷启动” 问题 …

9: 机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候,经常听有人说:“SVM 做过,Naive Bayes 做过 … 但效果不好”;做过很简单,但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低,只有一件你花十倍努力做到极致的事情!

10:“Human + Machine” 机器学习应用在一个特定领域,需要特定领域的专家知识:机器学习应用在 “医学”,需要一个经验丰富的医生;应用在 “股票”,需要一个有10年以上经验的操盘手;应用在 “互联网”,需要一个上网时间超过 1万小时的 PM …

您可能也喜欢:

YouTube转向Amazon的推荐算法

算法学术 | Resys China

Hunch推荐系统——能帮你更好地挑选礼物吗?

Gravity“兴趣图”能否实现互联网个性化?

[转载]互联网的“相关性时代”(the Age of Relevance)
无觅

相关 [机器学习 互联网 应用] 推荐:

机器学习在互联网应用面临的 10 大挑战

- - Resys China
原内容出自:@张栋_机器学习  http://weibo.com/1686830902/xAkL3EV4p. 1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏. 比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 ….

机器学习原来如此有趣!全世界最简单的机器学习入门指南 | 人人都是互联网创意G客

- -
图片来自dribbble.com by Justin Mezzell. 你是否曾经听到过人们谈论机器学习,而你却对其含义只有一个模糊的概念呢. 你是否已经厌倦了在和同事对话时只能点头呢. 现在,让我们一起来改变这个现状吧. 这篇文章是为那些对机器学习感兴趣却不知道如何开始的人而写的. 我估计有很多人尝试过阅读维基百科上面关于机器学习的文章,结果越读越受挫,后面干脆直接放弃,同时希望有人能够给出一个高质量的解释,那太棒了,这篇文章就是在干这件事.

机器学习在金融领域有哪些应用?

- - IT瘾-bigdata
由于交易量比较大,交易历史数据精确完备,以及金融领域的量化分析特点,金融领域是比较适合人工智能技术应用的领域. 现在机器学习已经成为金融生态中不可或缺的组成部分,从贷款审批到资产管理,到风险评估. 但是,很少有专业人士能够准确地知道机器学习在日常金融中的应用. 小编在Quora上提取了关于这个问题的一些针对性的回答.

微信的机器学习与人工智能应用实践

- -
大家好,我是来自微信的张重阳,很荣幸有这个机会和大家一起交流一下机器学习和人工智能技术在微信的应用实践. 谈起人工智能,大家首先想到的是图像识别、语音识别、机器翻译、机器人这些技术,然而人工智能所涉及的应用场景和商业价值却远不止此. 在日常的经营和管理中,任何一个企业都会维护客户关系,都有销售数据需要分析,都会在生产,销售和运营的各个环节中面对不同的决策问题,新一代的商业智能技术就是利用现在飞速发展的机器学习和数据分析技术对企业商业化过程中面临的各种问题给出自动化的智能解决方案,从而驱动业务快速增长.

[原]机器学习在热门微博推荐系统的应用

- - CSDN人工智能
近年来,机器学习在搜索、广告、推荐等领域取得了非常突出的成果,成为最引人注目的技术热点之一. 微博也在机器学习方面做了广泛的探索,其中在推荐领域,将机器学习技术应用于微博最主要的产品之一——热门微博,并取得了显著的效果提升. 热门微博是基于微博原生内容的个性化兴趣阅读产品. 提供最新最热优质内容阅读服务,更好地保障用户阅读效率和质量,同时达到激励微博上内容作者更好的创作和推广内容.

互联网时代的应用设计

- james - 所有文章 - UCD大社区
在互联网时代如何开发一个成功的应用. 先发放一万份调查问卷,找几十个人关在黑屋子里花两年时间研发,然后期待着一旦推出就颠覆整个互联网. 我不得不抱歉地说,以这样一种方式研发一款互联网应用,在互联网时代已经不太适用. 互联网应用单纯地从和传统应用的运行环境下的不同所带来的差异就足够决定互联网应用并不是把传统应用简单地搬到网上.

谈移动互联网应用

- - 人月神话的BLOG
周末参加了pmcaff组织的产品经理峰会,里面有个主题是谈移动互联网应用相关的,对这块个人没有做过,只能简单谈下个人的一些想法. 讨论中提到的一点,移动互联网应用和市场增速会很快,是传统互联网的多少倍不好说,但是简单以现有移动互联网的规模来讲,2-3年时间5-10倍的增速是完全可能的,毕竟当前的移动互联网的规模毕竟小.

算法在社区氛围的应用(三): 机器学习在答非所问识别上的运用

- - 知乎每日精选
现在,瓦力可直接识别并处理该题中的答非所问内容. 我们鼓励认真、专业的分享,期待每一次讨论都能碰撞出更多有价值的信息,并希望每一个用心的回答都能够得到好的展示,为他人带来更多帮助. 但是,我们也发现在社区中出现了答非所问类的内容,影响知友们获取有价值内容的效率. 为了更好地识别答非所问类内容,我们采用了多种模型,包括传统的机器学习模型和比较新的深度学习模型.

这么多机器学习的应用场景,金融领域到底有何不同?

- - 机器之心
在金融领域,机器学习可能会产生神奇的效果,尽管它本身并没有什么神奇之处(嗯,也许只是一点点). 然而,机器学习项目的成功更多依赖于构建高效的基础结构、收集适当的数据集和应用正确的算法. 机器学习正在对金融服务业产生重大影响. 让我们来看看为什么金融公司会关心这项技术,以及使用人工智能和机器学习可以实现什么解决方案和如何应用这项技术.

机器学习的流程是怎样的呢?如何应用到实践中去呢?

- - 人人都是产品经理
机器学习是一种能够实现人工智能的技术,可以通过大量的数据,训练出来一个处理数据的模型. 本文笔者将与大家分享:机器学习的相关实践应用. 我所理解的机器学习是一种能够实现人工智能的技术,建立能从经验(数据)中进行学习的模型,从而使这个模型可以达到自行处理此类数据的能力. 也可以理解为:通过大量的数据,训练出一个能处理此类数据的模型.