Jeopardy, IBM 和 Wolfram|Alpha

标签： Events | 发表时间：2011-03-03 18:32 | 作者：陈青 Grandbook

出处：http://apple4.us

近一期的时代杂志讲 Singularity，据说人类到 2045 年将进入半电子人时代，电脑获得意识，人类开始衰亡。怀疑的人也有，但半月前，IBM 开发的 Watson 系统在 Jeopardy!（一译《危险边缘》）中战胜人类对手似乎加剧了人们对机器的预期，引得雀跃或焦虑。本文写在 Jeopardy! 开赛前，Stephen Wolfram 谈论 Wolfram|Alpha 和 Watson 之间的差异，以及，在该领域做过的分析和经验。

大约在 Wolfram|Alpha 上线一个月前，我和 IBM 的某个团队通过一次电话，我谈了谈 Wolfram|Alpha 在知识计算中的远景。几周之后，这个团队宣布，他们将利用在自然语言处理方面的积累，试着开发一个能在 Jeopardy 中 PK 的系统。

当时觉得用这样的方式来展示工作成绩真是不错，何况还可凸显一下 IBM 的综合实力。现在，一年半过去，Jeopardy 开赛在即，IBM 赚到了足够的眼球。不管结果如何（IBM 理应赢得比赛），一件事情是确定的：IBM 所做的将会改变人们对人机交互的认知。

Wolfram|Alpha 发布那会，人们总认为它是一个「新的搜索引擎」——因为在大尺度上的信息搜索，人类掌握的基本上也只有关键字搜索这一项，但是 IBM 的计划显示了另一种绝佳的方案：问题回答。而当人们熟悉了这种模式，便会更清楚的了解 Wolfram|Alpha 的潜能。

那么，Wolfram|Alpha 和 IBM Watson 到底有什么关系？

Watson 采用的基本方法由来已久，和搜索引擎使用的信息检索机制一脉相承：先从文本文档入手，然后以统计学方法构建一个系统，将提问和文档中的回答联系在一起。（首先是寻找符合问题的文本 —— 使用同义词或其他语言转换方法。难点是找出一系列可能符合提问的回答，然后用各种不同的办法为其赋值，最后将得分最高的那个作为答案）

这种方法可以追溯到 50 年前，人们刚开始研究人工智能的时候。之后的时月，这项领域不断获得进展 —— 特别是，记录在近 20 年的 TREC 会议的问答竞赛环节中。IBM Watson 虽然沿用旧法，但是系统工程更为复杂，功能更专一。

（但）Wolfram|Alpha 是完全不同，更为激进的一个东西，它所采用的范式也已不同。原因是 Wolfram|Alpha 不处理文档，或任何源自文档的东西，它直接处理原始的精确的，可计算的知识。它的内核不是统计上的文本，而是知识真实的显现。

Wolfram|Alpha 可以接受以自然语言输入的问题，不过，它会把自然语言转化成一个精确的，可用于计算的内部格式，接着运用这个格式，通过知识计算获取答案。

需要许多技术和新的想法才能构筑这个系统，老实说，在研发 Wolfram|Alpha 之时我并不确定这项目标是否能够达成，但经过多年艰辛和突破，它运转顺利，我也很开心。现在 Wolfram|Alpha 每日回答成千上万的问题，涉及海量话题。

某种意义上说 Wolfram|Alpha 完全理解问题的含义，它不是用统计学办法配对答案，答案是根据它所掌握的知识计算出来的、，并且，许多答案都是全新的：从未存在，或被人类记载。

IBM 的方法，主要的工作是根据 Jeopardy 的规则完善统计上的配对流程，并针对特殊情况，加入一些处理的办法。

对 Wolfram|Alpha 来说，最重要的工作是为系统增加可计算的知识。保存数据、连接实时信息，注入专门行业的知识，部署可用于计算的算法 —— 并构建通用语法，分析来自外界的自然语言。

在开发 Wolfram|Alpha 的过程中，我们逐步构建其在不同领域的知识，先解决简短，在实践中重要的问题。这和挑战 Jeopardy 所需的全然不同，也意味着我们的路途和 IBM 的差异。假以时日，毫无疑问 Wolfram|Alpha 能够在 Jeopardy 中一搏，虽然达成方式会和 IBM 完全不同，但那不是我们今日的目标。

（现在，Wolfram|Alpha 大约知道 Jeopardy 提问中 75％的内容，我觉得不算太差，虽然离我们真正达成的目标还很远。）

过去的几周以来，我对这项计划所涉及的技术怀抱好奇。不如彻底忘记 Wolfram|Alpha 一会儿，想想看，挑战 Jeopardy 用什么办法最显著？

用一个简单而且古老的搜索引擎怎么样？输入 Jeopardy 的一些线索，然后看看哪些文档符合要求。嗯，为了好玩，我们做了一次测试。随机导入 20 万条 Jeopardy 线索（问题），接着把这些问题输入搜索引擎，然后看看（a）正确的答案是否出现在搜索结果页的标题或预览部位，（b）看看正确答案出现在搜索结果页首页的比例。当然，我们在操作中删除了那些专谈 Jeopardy 的站点。

于此，大概可以了解现代搜索引擎的图景了。这些数据告诉我们，越先进的搜索引擎，原始结果和最终结果就越相同，那么这说明，用户体验的其他方面有可能变得更为重要（例如 Wolfram|Alpha integration）。

在处理 Jeopardy 问题上，搜索引擎的表现力予人深刻印象，当然，这种办法并不完整：它只给出了可能的结果，并没有告诉真正的回答。也可以用几种简单的技巧推进这个办法，例如从首页标题中获得回答 —— 优秀的搜索引擎的成功率约是 20％。

显然，必需要做额外的工作才能在 Jeopardy 中亮相，这就是 IBM 所做的。

那么 Watson 意义是什么？它只是另一个像是人工智能的东西，仅做计算就能实现。（因此，可认为是计算等价原理的另一个证据）

但在一个更实际的层面，它和 IBM 有史以来的业务核心不谋而合：处理企业和其他组织的内部数据。

有两种典型的的企业数据：结构化的（通常是数值，在未来将可以自动获取），和非结构化的（通常是文本或图形）。IBM Jeopardy 的方法是从非结构化的文本数据中获取答案 —— 潜在的关联应用可能是挖掘医疗或专利文档，或者在诉讼阶段做电子化搜寻。近些年来，搜索引擎也被广泛在这些工作中 —— 那么通过 Jeopardy 计划，IBM 成为了自然语言处理大军中的一员。

谈到处理结构化的企业数据，Jeopardy 使用的方法关联度不大，在该领域已存在一个庞大的工业集团 —— 帮助人们用结构化的方式研究结构化的数据。

正是在这个领域，Wolfram|Alpha 做出了显著的突破：首次以完全自由的非结构化方式发掘结构化的数据。例如将企业用的数据输入到订制版的 Wolfram|Alpha，然后便可接受自然语言输入，通过算法获得结果，并生成完整的报告。

那么，Wolfram|Alpha 和 Watson 之间如何协作？虽然现在还谈不上，但是如果未来诞生了 Watson 2.0，最好是能调用 Wolfram|Alpha 的 API。IBM 显然已经使用了一定数量的结构化数据和规则给备选答案赋值。但我们发现，在自然语言处理的过程中仍有许多可为之处。特别当涉及到回答多种多样的问题时，就需要 Wolfram|Alpha 的计算办法。

另一方面，对于 Wolfram|Alpha 中的数据，我们专注在可定义的结构化数据源，但有时候，你没有选择，只能试着从非结构化的文本数据源中提取结构化的数据。以我们的经验，总有一个不可靠的过程（最高可以达到 80％的准确率）—— 迄今为止，我们只是积累数据，以供后续研究。但也许通过 Watson 采用的办法，能够获得大量以概览计的备选回答——便可作为 Wolfram|Alpha 计算知识引擎的一部分。

未来可期，但现在，我盼望着 IBM 在 Jeopardy 的表现。

IBM 在重要的研发上有其悠久和独特的历史——一些令人失望的小公司时至今日也不会反对的。我在 IBM Research 有几位朋友（难过的是，一些已离世），IBM 作为一个公司有许多的地方值得尊重。很高兴在这样的比赛中看到 IBM 身影，这个领域又是我所喜欢的。

好运，Watson，我为你加油。

Jeopardy, IBM 和 Wolfram|Alpha

- Grandbook - Apple4.us

近一期的时代杂志讲 Singularity，据说人类到 2045 年将进入半电子人时代，电脑获得意识，人类开始衰亡. 怀疑的人也有，但半月前，IBM 开发的 Watson 系统在 Jeopardy!（一译《危险边缘》）中战胜人类对手似乎加剧了人们对机器的预期，引得雀跃或焦虑. 开赛前，Stephen Wolfram 谈论 Wolfram|Alpha 和 Watson 之间的差异，以及，在该领域做过的分析和经验.

[小红猪]Jeopardy！,IBM和Wolfram|Alpha不可不说的故事

- L - 科学松鼠会

原文写于IBM超级计算机沃森在智力竞赛节目“Jeopardy. ”大显神威前，将著名的Wolfram|Alpha项目和沃森的进行了比较，讲述二者间不得不说的故事. 译者自我介绍：大家好，我是小可，2010年毕业于武汉大学，现在在北京市某公司做软件测试. 这是我第一次翻译科学松鼠会的文章，我表示情绪激动，压力很大，呵呵.

Stephen Wolfram自述

- blueslan - 阮一峰的网络日志

大家听说过Stephen Wolfram（斯蒂芬·沃尔夫勒姆）吗. 我对他了解不多，但是读了下面这篇2005年的演讲，联想到2009年推出的知识引擎WolframAlpha，我觉得他真是传奇人物，在学术上可能与霍金一个级别. Stephen Wolfram自述. 　　----在Y Combinator创业学校的演讲.

Wolfram推出新的数据交互格式

- ccyuling - Solidot

Mathematica软件开发商Wolfram Research发布了一个复杂数据集的可视化和交互平台. 利用Wolfram的Computable Document Format(CDF)，用户能创造出数据集的可视化描绘，并可被其他人操作. CDF让浏览者获得的不仅仅是原始数据集，而且还包括不同数据集之间关系形成的算法，可用于展示数据的交互.

Wolfram推出新的数据交互格式CDF

- Leonhard - cnBeta全文版

完美组合：Siri+Wolfram Alpha的十种酷用法

- Carl.King - 36氪

看完Siri的十种“正经”用法，“Siri+X”组合的强大功能想必让大家眼前一亮. 如果仔细琢磨我们介绍的十种“正经”用法的话，就不难发现：Siri+Wolfram Alpha的组合还有更酷的玩法. 下面就一起来看看Siri+Wolfram Alpha还能擦出怎样的火花. 背景介绍：Wolfram Alpha是由Wolfram Research团队开发的一个知识计算引擎.

给文件注入生命力：Wolfram推出新文件格式CDF

- 大宝PKU - 36氪

如果你相信一个稍纵即逝的点子会有生命的话，那么一个文档也应该有. 今天Wolfram推出了一种名为“可计算文档格式（CDF）”的新文件格式，目的是把文档变成一个个的互动程序. 目前占统治地位的文档格式是Adobe制定的PDF格式，如何让人们接受CDF是一个很大的挑战，另一个问题是如何让CDF和PDF文件兼容.

冲击Google：计算搜索引擎Wolfram Alpha 25％的搜索请求来自Siri

- - 36氪

Google在搜索领域不仅正遭遇着社交搜索的威胁，而且也遭遇着语音搜索的冲击. 来自计算搜索引擎 Wolfram Alpha的数据更加印证了Siri的的确确会给Google带来重大冲击. Wolfram Alpha是不同于Google的数学计算搜索引擎，也就是说其不同于Google返回网页搜索结果，Wolfram Alpha返回的是经过数学计算的直接结果.

百年老店 IBM（1911-2011）

- 友剑 - 弯曲评论

IBM，创办于1911年6月16日. 综观IBM的过去，IBM孕育了许许多多影响了人类文明的创造发明. 在计算机方面，IBM 360，Personal PC，Fortran语言，关系数据库，RISC处理器. N个图灵奖获得者的主要或者部分工作出自IBM的研究中心【Frances E. Allen[第一位女性，For编译和高性能计算], John Cocke[For RISC], John Backus[For Fortran语言], Edgar Codd[For关系数据库]，Frederick Brooks[For体系结构，360的主要贡献者], Amir Pnueli[For时序逻辑和形式系统], Richard Manning Karp[For计算理论]】.

IBM PC 今天已满30周岁

- Far Soul - cnBeta.COM

今天是IBM PC整整走过30年的日子，从来没有一款机器可以如此深远地改变世界思考问题的方式，1981年8月12日，它用一个小巧的姿态：售价1565美元走入千家万户，当时的电脑与今天相比非常简陋：ROM里装有Microsoft BASIC. 其彩色图形适配器可以使用普通的电视机作为图像输出设备，或者使用单色显示适配器和5151型单色荧光屏.

Jeopardy, IBM 和 Wolfram|Alpha

相关 [jeopardy ibm wolfram] 推荐：

Jeopardy, IBM 和 Wolfram|Alpha

[小红猪]Jeopardy！,IBM和Wolfram|Alpha不可不说的故事

Stephen Wolfram自述

Wolfram推出新的数据交互格式

Wolfram推出新的数据交互格式CDF

完美组合：Siri+Wolfram Alpha的十种酷用法

给文件注入生命力：Wolfram推出新文件格式CDF

冲击Google：计算搜索引擎Wolfram Alpha 25％的搜索请求来自Siri

百年老店 IBM（1911-2011）

IBM PC 今天已满30周岁

相关文章

订阅