Google 翻译,梦想与现实的距离有多远

标签: google 翻译 梦想 | 发表时间:2011-11-09 17:34 | 作者:投稿 (guest) Pancho Tsui
出处:http://www.williamlong.info/

  在信息纷繁如大洋般浩浩的互联网时代,操持各自语言的人们汇聚网络,言之纷纷,书之不息,各类信息无时不发,无处不在……不论是经典著述、长篇大论,抑或巧思短文、灵感的火花……似乎,互联网承载和传播了这个星球上人类的所有智慧。然而,一个简单的事实让信息携带智慧流通全球还依然只是一个梦想——即:不同语言之间无法直接沟通。为解决这个问题,机器翻译随科技的发展应运而生,并不断发展。

  前面的废话

  曾经有一个梦想——希望能轻松读懂英文,至少在看一篇没有太多文学色彩的技术文章时,可以明白个八九不离十。

  也曾经不自量力——在借助机器翻译求学外文失败之后,试图研究机器翻译应当如何进行……

  世界发展真快,失望、怅然与自知无能为力的几年虚度,曾经的渴望和若有所研的心得早已抛诸天外。直至几年前,Google 推出了翻译服务,经初步试用,如果要求不高的话,感觉翻译效果也算是不错!(注:不能用专业的人工翻译和机器自动翻译比质量)。免费使用,及时快速,在信息飞速流动的互联网时代,有这样的免费服务已经很知足了。(其实很想说一声谢谢!)

  机器翻译的质量

Google翻译

  一个显而易见的前提是,机器翻译不可能与人工翻译相比。在目前的技术条件下,一般认为机器翻译如果有 60% 以上的准确率就基本可用了。目前机器翻译已经发展到“基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性”(摘自维基百科“机器翻译”词条)。从对 Google 翻译服务的试用来看,其对简单短句、短语、以及习惯用语的翻译都还不错,翻译包含了对句法词序的转换处理。

  那么,现阶段我们是否可以期待计算机对普通长句也有比较好的翻译效果呢?

  简单的答案是:No!

  复杂一点的答案也许是:我们可以有这样的期望吗?

  或许,我们可以有这样的期望。但我们需要作出一些付出!请细想一下,我们通常所见的那长长的句子,它是否可以被分解为多个短句呢?如果短句与短句之间有语法上的主次关系,它们是否可以被包装成一个父级的简单句呢(即视短句仅为一个占位单元)?如果答案是肯定的,那长句就可以拆解封装成简单句的组合了(可能有多层)。

  这是无意中尝试的一个例子,请看:

  原文:“为什么计算机合成语音多数是女声。”
  Google 译成英文:“Why do the majority of female computer synthesized speech.”
  用该译文译回中文:“为什么大多数女性电脑合成语音。”

  一正一反两次互译,含义已经相去甚远了。但我们尝试一下分解策略:

  中文分解                Google 译文
  -------------------------------------------------
  1. 计算机合成语音       Computer-synthesized voice
  2. 女 声                Female voice  // 注:原译为 Girl,应是个 Bug,中间空一格即可
  3. 多数                 Most
  4. 为什么 X 是 Y        Why X is Y   // X 和 Y 是占位符,此处是取其语法翻译

  组合后译文:“Why <Computer-synthesized voice> <Most> is <Female voice>”
  去掉尖括号:“Why Computer-synthesized voice Most is Female voice.”
  用该译文译回中文:“为什么电脑合成的声音大多是女性的声音。”

  效果如何! 有种惊艳的感觉吧?

  再来一句试试:
  原文:“互联网以英文为主是不争的事实,”
  Google 译成英文:“Internet in English is an indisputable fact,”
  用该译文译回中文:“在英国的互联网是一个不争的事实,”

  中文分解                Google 译文
  -------------------------------------------------
  1. 互联网               Internet
  2. 英文                 English
  3. XX 以 YY 为主        XX to YY-based
  4. XX 是不争的事实      XX is an indisputable fact

  组合得译文:“Internet to English-based is an indisputable fact,”
  用该译文译回中文:“以英语为主的互联网是一个不争的事实,”

  与直接回译的差别是不是有点大,与原文的意思是不是基本符合?

  看到这里,是否,我们真的可以有某些期望? 或许,这是一个需要努力但并非太多努力就可接近的目标! 请抱持思考和理性批评的心态看待下面的解说。

  长句拆解,短句组合构造长句译文

  一般来说,对于具有较深文学色彩的文字,因大多包含隐喻,上下文环境依赖等,机器翻译十分困难。但对于普通的文法较为规范的描述性文章(如技术类说明书,使用手册等),如果句法足够简单,则机器翻译的表现已很不错。

  如上所见,如果人工稍作参与,通过长句分解,机器翻译整篇文章或许也会有比较理想的结果。这里,我们需要对长句进行逻辑判断和拆解,如果必要,构造父级的句法特征句(如“XX 以 YY 为主”,XX 为占位符,代表相应子句,用于语法转换),则人工参与的并不多,但效果却会很大。

  对原文进行拆解标识的意义

  或许,你认为人工参与机器翻译并不划算,太低级,理想的机器翻译应当是完全的无人工自动执行。确实,这是人人期盼理想状态,但那离现实似乎太过遥远(个人看法)。

  表面上看,一旦人工参与,任何机器无法解决的智能问题都会化解,所以,人工参与不是解决问题的办法——这仅是简单地看问题。

  我想说,这观点低估了人脑智能的复杂性,对机器智能寄予了过高的期望。另外,这也忽略了一个重要事实,即——分析拆解工作其实是“一次性”的。当我们对原文做好语法标识后,就可以撒手不管它将要被翻译到何种语言了。注意!这里没有指明何种语言,因为——这适用于翻译到任何一种语言——所作与目标语言无关,标识仅仅是说明了自己。

  还有一点,精通一门语言易,精通多门语言难,通晓一门语言的人很多,通晓多门语言的人很少。任何一个人,只要母语多少有些修养,就可以标识用母语写的文章,从而帮助作者的文章得到翻译,或作者自行标注,让自己的文章可以直接被翻译。人机结合,这对翻译人员的门槛降到了最低——好宽广的群众基础啊! 梦想,是否有实现的可能?

  技术性的个人研究分享

  很浅薄,请不吝赐教……

  从上面的分析看,借助于 Google 翻译服务的 API,现阶段就可以编写并不复杂的程序,实现可行的通篇文章机器翻译,但前提条件是,原文需要被适当标识。个人认为标识文章的语法应当尽量简单,以利于大众化普及,由于机器翻译服务已有初步的智能,简单标识已经可行。

  笔者设计的标识逻辑有 3 层,共 7 个标识字,如下:

      顶层: 子句,标识字 clause
      中层: 短语,标识字 phrase,包含常用习语、俗语、俚语等
      底层: 单词,标识字 名词 word-n,动词 word-v。
     
      另外两个特殊词,人名 names,术语 term,一般情况下保持为不翻译,需标识出来。

  如果仅针对长句拆解,底层的单词标注其实已经不需要,这里加入是方便将来机器对短句进行更加准确的判断。

  标识例子1(Html 代码,用 class 属性表达):
      <span class="syntax">
          <span class="phrase">为什么</span>
          <span class="clause">
              <span class="word-n">计算机</span><span class="word-v">合成</span><span class="word-n">语音</span>
              // 注:这一句其实不必拆解,它可能已成为一个术语
          </span>
          <span class="clause">
              多数<span class="word-v">是</span><span class="phrase">女声</span>
          </span>,
      </span>

  标识例子2
      <span class="syntax">
          <span class="clause">其中一个<span class="word-n">答案</span></span>
          可能在于
          <span class="clause">
              人类的<span class="phrase">生物机制</span>
          </span>。
      </span>

  注:
  1. 代码最外围用 syntax 包含,表示内部为语法标识。
  2. 并非所有的文字都需要标注,将句子切分以表达出逻辑关系即可。
  3. 一些介词、助词之类的字是语法标志词,不需要标注。

  抛砖引玉,期待探讨!谢谢。

  来源:读者原创投稿,作者:乙謌

评论《Google 翻译,梦想与现实的距离有多远》的内容...

相关文章:

统计
关于我们: 地址 - www.williamlong.info - 谷歌阅读器 - 新浪微博 - 腾讯微博
月光博客投稿信箱:williamlong.info(at)gmail.com

相关 [google 翻译 梦想] 推荐:

Google 翻译,梦想与现实的距离有多远

- Pancho Tsui - 月光博客
  在信息纷繁如大洋般浩浩的互联网时代,操持各自语言的人们汇聚网络,言之纷纷,书之不息,各类信息无时不发,无处不在……不论是经典著述、长篇大论,抑或巧思短文、灵感的火花……似乎,互联网承载和传播了这个星球上人类的所有智慧. 然而,一个简单的事实让信息携带智慧流通全球还依然只是一个梦想——即:不同语言之间无法直接沟通.

Google翻译的内涵

- hahahaha哈 - 大家都是中国人
非PS图,可以自行前往http://translate.google.com/验证.

Google的社会化梦想

- lszhao - 月光博客
  作为曾经的规则创立者,Google深刻了解创造并引领互联网新趋势的重要性,而社会化被广泛认为将会是彻底改变我们生活的下一个新趋势,这一概念的革命性远远超过我们之前了解的博客、视频、LBS.尽管目前Facebook、Twitter已经足够红火,但个人并不认为他们就是社会化概念的终极体验,相反还存在着着巨大的空间能够去想象与探索.

用安卓的Google翻译来聊天

- 安得米 - 谷奥——探寻谷歌的奥秘
在移动技术及网络的帮助下人们能够更轻松地获取想要的信息及和其他人沟通,但是语言不通成了一个很大的障碍. Google就一直在努力解决这个问题,希望大家能更轻松地交流沟通. 今年年初,Google在安卓版的Google翻译上添加了一个叫对话模式的实验版功能,它能让你将对话在不同语言之间来回转换. 最初只有英语和西班牙语,但从今天起它将开始支持14种语言,包括巴西葡萄牙语,捷克语,荷兰语,法语,德语,意大利语,日语,朝鲜语,国语(普通话),波兰语,俄语和土耳其语.

Google 发布 JavaScript 到 Dart 翻译器

- - 谷奥——探寻谷歌的奥秘
由于嫌JavaScript太烂,所以 Google之前发布了自己的Dart语言. 这个新的平台可适合开发简单、高效而具有可扩展的网页应用,整合了强大的全新的编程特色,但却同时具备你熟悉的语言语法结构. 今天Google则发布了 JavaScript 到 Dart 翻译器,这个应用可以告诉你Javascript和jQuery的变量、函数、类库、DOM操作、数组等等,转换成Dart版本之后语法应该怎么写.

Google的社会化梦想与Reader

- - demo@virushuo
朋友跟我说,你那些打算写的blog要是再拖着不写,拖过7月1号Google Reader关闭了我们就看不到你blog了. 这个笑话讲的很好,所以我决定最近多写点,我们就从Google Reader开始吧. Google Reader的前产品经理在Quora回答了 关于Reader关闭的问题 ,导致Google Reader被关闭的主要原因是Google Plus.

Google Chrome扩展开发指南全部翻译工作完成

- beralee - cnBeta.COM
感谢金山说下次我们翻译啥?的投递. 360极速浏览器一批工程师用业余时间完成了Chrome extension developer's guide全部翻译工作,放在360极速浏览器应用开放平台的开发文档里供大家参考学习.

Google Translate 增加拼音显示和翻译评分

- Mr. Snail - 谷奥——探寻谷歌的奥秘
感谢读者 字符映射表 和 52Dora-陈志勇 的爆料. 最近Google Translate又多了两个小功能:拼音显示和翻译评分. 当翻译成简体中文或正体中文的时候,可点击“显示对于的拉丁字符的拼音”来了解到如何读音(不过其实Google不是可以帮你朗读吗. 然后不管翻译成哪国语言,都可对翻译结果进行评分,有三个级别可选──通过人肉评分,Google Translate可以依靠大家的力量提升翻译质量,而且可以防止那些故意误导Google让它翻译错的恶搞之人.

Google Maps 允许自由切换地名翻译图层

- SotongDJ - 谷奥——探寻谷歌的奥秘
Google Maps在去年就开始为地名进行国家化处理,但也因此闹了不少笑话,好在后来允许恢复了,现在Google只会为部分拥有官方译名的地址进行翻译. 不过最近Google Maps也做出了一些改变,以前只要是有官方翻译名的地址,会同时给你显示出当地语言的地名和翻译成你使用语音的地名. 现在Google Maps允许你自由切换地名的翻译图层了,你可以同时显示两种语言的地名(如上图,如果那个地名已经有被翻译的话),也可以只显示当地的语言(如下图).

Google改进语音翻译与Siri竞争

- lin - Solidot
Shawn the R0ck 写道 "Google翻译Android版是Google机器翻译软件的移动版,Google宣称现在可以在14门语言之间来回翻译. 在今年的早些时候Google加入了对话模式,即帮助用户在英文和西班牙语之间同声传译. 现在Google让新的翻译软件能运行在Android 2.2上和新增加了巴西葡萄牙语,捷克语,法语,德语,意大利语,日语,韩语,中文普通话,波兰语,俄语,土耳其语的语言翻译.