统计机器翻译(机器翻译的前世今生)

我擅长进行自然语言处理,能支持55门语言互译。曾在2020年国际机器翻译大赛(WMT20)上杀出重围,以显著优势在「中文-英语」等多个语向翻译项目竞赛上获得世界冠军。在和其他兄弟姐妹同时接受测...

我擅长进行自然语言处理,能支持55门语言互译。曾在2020年国际机器翻译大赛(WMT20)上杀出重围,以显著优势在「中文-英语」等多个语向翻译项目竞赛上获得世界冠军。在和其他兄弟姐妹同时接受测评时,我也不露怯,还趁机又圈了一波粉...

统计机器翻译(机器翻译的前世今生)


WMT20中英翻译前几名系统得分,火山翻译排名第一。Ave.z代表人工评估标准化分数,也是目前机器翻译最受认可的指标。

你在各种场景都能见到我的身影:在大学生面对冗长的外语论文一筹莫展时;在视频制作者费劲地给视频分轴,无数次地「听写+暂停」时;在外国主播侃侃而谈,而一旁的翻译面露难色、有苦难言时,我都会及时出现,帮助大家解决各种翻译问题。

统计机器翻译(机器翻译的前世今生)


知名日本艺术家村上隆首场中国直播,火山同传提供智能同传字幕

当然我的能力和取得的成就离不开火山翻译团队每位成员的不懈追求、精益求精,也离不开我的前辈们提供的经验。说起我们这一行的发展历程,那可就要从公元前的古希腊时期说起了...

统计机器翻译(机器翻译的前世今生)


早在古希腊时期就有人提出过用机器来进行语言翻译。

到17世纪,笛卡尔(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典,提供无歧义语言。

20世纪30年代初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项「翻译机」的专利,叫做「机械脑」(mechanical brain)

1933年,前苏联发明家特洛扬斯基(П П ТРОЯНСКИЙ)设计了用机械方法把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。

统计机器翻译(机器翻译的前世今生)


特洛扬斯基的「选词和印刷机」示意图

1946年,电子计算机在美国问世,同年英国工程师布斯(A. D. Booth)和美国洛克菲勒基金会副总裁韦弗(W. Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。

1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还有两点值得注意:

第一,他认为翻译类似于解读密码的过程。

他说:「当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。」

统计机器翻译(机器翻译的前世今生)


第二,他认为原文与译文「说的是同样的事情」。

当把语言A翻译为语言B时,就意味着,从语言A出发,经过某一「通用语言」(Universal Language)或「中间语言」(Interlingua),然后转换为语言B,这种「通用语言」或「中间语言」,可以假定是全人类共同的。

时代要求往往推动着科技进步。铁幕缓缓落下之际,特洛扬斯基已花费20年研究他的发明,后因心绞痛逝世。

1954年,美国对外声称已研发出能够自动将60个俄语句子翻译成英语的翻译系统。虽然句子是经过精心挑选的,该系统事实上也只有250个词及几条翻译规则。但这个系统的出现引发了大家对机器翻译的热烈讨论,认为让机器自动完成翻译这个愿望很快就能实现。军备竞赛的开始也让加拿大、德国、法国及(特别是)日本都加入到机器翻译竞赛中。

统计机器翻译(机器翻译的前世今生)


如果给你一篇英文文章,如何将其翻译成中文?查词典!

  • 我 -> (宾语)me;(主语)I

  • 来自 -> (现在时)come from;(第三人称单数)comes from;(过去时)came from

  • 中国 -> China

  • 句式结构:汉语主谓宾 -> 英语主谓宾

==> 我来自中国 -> I come from China

翻译员的翻译过程

科学家开始研究翻译员的工作,试图让计算机能够重复翻译行为。参考翻译员的翻译过程,科学家研发出一种机器翻译系统,它通过研究源语言与目标语言的语言学信息来进行,也就是基于词典和语法等规则生成翻译,这被称为基于规则的机器翻译(RBMT)。

统计机器翻译(机器翻译的前世今生)


*规则通常包含词典、句法等,由语言学的专家制定。

基于规则的机器翻译优点如下:

  • 直观、直接表达语言学共识

  • 规则比较灵活,系统理论上比较可控

缺点如下:

  • 主观性强、覆盖性差、维护成本高

  • 引入新的规则容易造成冲突

  • 开发成本高,一个语言对应一个系统

  • (语义障碍)自然语言的歧义无法解决

统计机器翻译(机器翻译的前世今生)


某市公安局宣传语。究竟是「生活没有出路,指望传销致富」还是「指望传销致富,生活没有出路」?

1966年11月,ALPAC委员会公布了一份名为《语言与机器》的报告,这份长达120页的报告全面否定了机器翻译的可行性,并宣称「在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的」。

报告还指出,机器翻译研究遇到了难以克服的「语义障碍」(semantic barrier)。重建巴别塔的工程遭遇了前所未有的挫折,美国阅批对机器翻译的支持停止了。

统计机器翻译(机器翻译的前世今生)


巴别塔,指《圣经·旧约·创世记》中人们建造的塔。据记载,当时人类联合起来兴建希望能通往天堂的高塔;为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。

统计机器翻译(机器翻译的前世今生)


在冷战期间,掌握英语的日本国民只占少数,面对势不可挡的全球化进展,日本开始积极地寻求一种高效的机器翻译方法,让语言不再成为日本与外界交流的障碍。

由于英日两种语言的规则差别较大,基于规则的机器翻译并不适用于英日翻译。于是,在1984年,京都大学的长尾真提出使用现成的短语作为翻译源而不是重复进行翻译,该机器翻译方法后被总结为「基于实例的机器翻译」(EBMT)。

基于实例的机器翻译的本质是「以翻译实例为基础,基于相似原理的机器翻译」,其主要利用预处理过的双语语料和翻译词典。该方法的显著特点是忽略了语法和语义规则,转而依赖大型的文本语料库。

基于实例的翻译过程通常包括三步:

  1. 在翻译实例库中搜索匹配片段。

  2. 确定相应的译文片段。

  3. 利用类比思想,避免复杂的结构分析,从而重新组合译文片段,以得到最终翻译。

统计机器翻译(机器翻译的前世今生)


比如我们需要翻译一个句子:「我为你感到高兴。」

而在语料库中已经储存了一个类似句子:「我为她感到骄傲。」语料库中也有这个类似句子的译文。

为了翻译第一句话,我们只需要找出两句话的不同之处和相同之处,将不同之处进行替换即可得到最终翻译结果。

统计机器翻译(机器翻译的前世今生)


EMBT的诞生让机器翻译往前迈了一大步:我们不再需要自己构建规则,我们只需要将已有的翻译交给机器。但革命性的机器翻译发明还在后面:统计机器翻译(SMT)将掀起一波机器翻译新浪潮。下周同一时间火山翻译将继续为你介绍统计机器翻译(SMT)和神经机器翻译(NMT),好戏还在后头,千万不要错过。


  • 发表于 2021-09-19 20:58
  • 阅读 ( 608 )
  • 分类:互联网

0 条评论

请先 登录 后评论
chenquan1
chenquan1

706 篇文章

你可能感兴趣的文章

相关问题