百度翻译研发500天幕后:团队曾经迷茫一个月

标签: Baidu 百度 | 发表时间:2011-07-12 10:15 | 作者:(author unknown) Allen
出处:http://pipes.yahoo.com/pipes/pipe.info?_id=5OVll5Fs3hGCc1KftJCjyQ
Baidu 百度

7月12日消息,百度自主投入、研发的在线翻译产品――百度翻译近日悄然上线,受到了业界和用户普遍关注。近日百度翻译研发负责人日前独家披露产品背后的故事,称这款历时一年多时间打造的最新翻译工具,也曾遭遇过长达一个月的迷茫期。

http://img.cnbeta.com/newsimg/110712/1015210560557673.jpg

去年组建机器翻译团队

据了解,互联网的出现为机器翻译的研发和应用带来了空前的机遇和挑战。在中文搜索领域处于领先地位的百度,也意识到机器翻译的重要性。2010年初,百度组建了由世界级机器翻译专家王海峰博和吴华博士领衔的机器翻译核心研发团队。

他们二人皆有着10年以上的机器翻译研发经验,曾成功开发过机器翻译产品,也曾在国际机器翻译评测中以绝对优势获得第一,并发表过数十篇高水平机器翻译论文。王海峰更是自然语言处理领域世界上影响力最大、也最具活力的国际学术组织ACL(Association for Computational Linguistics)50年历史上唯一当选副主席的华人。

在王海峰和吴华博士的组织下,一个由3名正式员工和1名实习生组成的百度初始机器翻译核心研发团队成立。随后一年,团队展开了百度机器翻译的研发。调研、规划、语料抓取、训练工具、解码器等工作也由此全面铺开。

曾经迷茫1个多月

在百度做机器翻译,一个重要优势就在于,百度强大的海量计算平台和丰富的海量互联网数据处理经验,可以支撑机器翻译团队从海量互联网数据中挖掘超大规模的双语语料。

作为机器翻译领域资深专家,王海峰非常清楚这些双语资源在机器翻译中的价值。于是,双语语料的探测、抓取和处理,就成了百度机器翻译团队初期的重要工作之一。

随着工作的开展,双语语料数量也迅速增加,当达到1000万句对的规模时,团队成员们都十分振奋,从事机器翻译工作多年的他们,从未使用这么大规模的双语语料训练过系统。不过,看到基于这1000万语料训练系统翻译结果时,大家沉默了,因为翻译质量远比预期要低。

仔 细分析后发现,虽然这1000万语料已经是从更多的语料中选出的质量较高的部分,却仍有一大半的低质句对,例如:“how old are you”这么常用而简单的英文在网上却被大量地翻译为“怎么老是你”,“好好学习、天天向上”这句大家耳熟能详的中文,在抓取回来的语料中,大多数都被翻 为了“good good study, day day up”。

这样的句对,利用已经使用的常规双语处理技术很难过滤掉。而如果不解决这个问题,语料规模再大也没有意义。于是,语料工作的重点迅速转到了低质语料处理。

接 下来的一个月,大家反复地分析、开发及实验,但又一次次陷入迷茫和困惑,大量被同行证明行之有效的方法一时间都失灵了,成功过滤的低质语料不足10%。经 过这个过程,大家逐渐看清了一点,解铃还须系铃人,要想有效处理与传统的文本数据差别非常大的互联网数据,还要更多地将传统文本处理技术与互联网技术相结 合。

于是1个月后,一套全新的互联网双语语料挖掘技术方案出炉。基于这套技 术,1000万句对被有效过滤到约400万。令大家兴奋的是,过滤过的400万语料训练出来的系统,其质量远远好于基于1000万句对训练的系统。新的互 联网双语语料挖掘技术成功。之后的时间里,高质量双语语料不断增加,翻译系统质量得以提升。

更本地化 擅长网络流行语

百度翻译研发500天幕后:团队曾经迷茫一个月

更本地化 擅长网络流行语

百度翻译研发500天幕后:团队曾经迷茫一个月

谷歌翻译“神马都是浮云”

仅一年多时间,百度翻译即上线发布。百度方面认为,与业界同类产品相比,百度翻译有四大技术亮点:机器翻译核心技术、语料挖掘和过滤技术、海量计算技术、可靠的web前端技术。

依托于百度在中文互联网技术上的优势,百度翻译对中文网络语言有着独特的应对能力。如翻译“有木有、我勒个去、神马都是浮云”等网络流行语,百度都能准确翻译。

以翻译“神马都是浮云”为例,百度翻译为“Everything is nothing” ,谷歌翻译成“Horses are clouds of God”,谷歌翻译明显体现出本地化不足的特点。

wen

相关 [百度 翻译 研发] 推荐:

百度翻译研发500天幕后:团队曾经迷茫一个月

- Allen - cnBeta全文版
7月12日消息,百度自主投入、研发的在线翻译产品――百度翻译近日悄然上线,受到了业界和用户普遍关注. 近日百度翻译研发负责人日前独家披露产品背后的故事,称这款历时一年多时间打造的最新翻译工具,也曾遭遇过长达一个月的迷茫期. 据了解,互联网的出现为机器翻译的研发和应用带来了空前的机遇和挑战. 在中文搜索领域处于领先地位的百度,也意识到机器翻译的重要性.

百度研发推荐引擎:已应用于百度知道和新首页

- - TechWeb 今日焦点 RSS阅读
  推荐引擎是主动发现用户当前或潜在需求,主动推送信息、应用和服务给用户的互联网技术.   【TechWeb报道】6月19日消息,百度主任架构师、推荐引擎负责人廖若雪今日接受媒体采访时透露,百度从去年起抽调技术人员成立独立研发团队,研发“推荐引擎”技术,目前团队百余人.   百度推荐引擎是一项底层技术,目前已经在音乐随身听、百度知道、百度新首页等项目中应用.

百度搜索研发部:日志分析方法概述

- wuwu - 标点符
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等. 日志的内容、规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志. 其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志.

爱国的百度翻译啊:除了共*产*党万岁以外,其他党派都不能万岁,万岁不了。。。

- Rehtron - 天朝娱乐 | 每天开心一下!
除了*共*产*党万岁以外,其他党派都不能万岁,万岁不了.

翻译《The rsync algorithm》

- AWard - CSDN博客推荐文章
     最近在学习Rsync工具,在对Rsync算法大加赞赏之余,决定将《The rsync algorithm 》翻译,有不正之处 还请指正. 安德鲁Tridgell 保罗马克拉斯  部计算机科学 澳大利亚国立大学 堪培拉,ACT 0200,澳大利亚.        本报告介绍了将一台计算机上的文件内容同步到另一台机器上的文件的算法(同步后保证文件内容需要一致).

闲谈翻译

- Frank - 乱象,印迹
算起来,我也算有一些翻译经验的人了,最近接连做了两次关于翻译的分享,发现对翻译有兴趣的人很多,索性,将自己关于翻译的经验做个总结,发在这里. 我是因为很偶然的机会接触翻译的. 当时还在学校,考完了TOFEL和GRE,美国对伊拉克动武,国内的报道非常奇怪,为了在论坛上争论,我开始翻译一些外国媒体的报道,发在论坛里.

翻译:WebKit for Developers

- - TaoBaoUED
Paul Irish 大湿为我们带来了这篇开年大作,文章深入浅出的阐述了各 Webkit port 的迥异,文笔细腻,是一篇不可多得的 Webkit 入门开胃菜. 为了让大家第一时间更好的品尝这道大菜,一丝特别邀请了几位 Webkit 专业开发人士作为本文的翻译顾问,在此表示由衷的感谢. 原文链接:  http://paulirish.com/2013/webkit-for-developers/.

百度知道恶搞变形金刚背后:由“刚粉”工程师1日研发

- 我有笔如刀 - cnBeta.COM
就在备受关注的《变形金刚3》在中国首映的前一天,全球最大中文互动问答平台百度知道上(zhidao.baidu.com),一个极具趣味和应景的“变形金刚”彩蛋被无数网友发现,并引发围观. 用户只要在百度知道检索“变形金刚”或“变形金刚3”,搜索结果中原本的文字链接就会组合成一个变形金刚出现在页面的右边,并且该“变形金刚”还会动态走向页面中间,伴随其脚步的停止,页面也会随之震动.

翻译与字体

- Chenta - Apple4.us
胡天翼今天在 Twitter 上说:. 这次关于《乔布斯传》的讨论怎么都在讲翻译. 我以前从来没见过大家对一本书的翻译那么痛心疾首且富有参与精神地讨论,以至于产生了两种幻觉:1. 以前人们读的译本都很好,这次的翻译烂到让人不能相信;2. 这么多年头一次读厚书一定要抓紧机会多叫几声. 我认为这个设问的答案很明显,但不在于上述两点.

Google翻译的内涵

- hahahaha哈 - 大家都是中国人
非PS图,可以自行前往http://translate.google.com/验证.