编者按:随着机器翻译的不断发展,我们经常听到或看到机器翻译将取代人工翻译的观点。人类口译员会很快向新技术的尖端投降吗?机器翻译会像深蓝和AlphaGo一样成为一个领域破坏者吗?道格拉斯霍夫斯塔德(Douglas Hofstadter)在采用人工神经网络和深度学习技术后,引用了法语、德语和中文的几段话来测试谷歌翻译(Google Translation)的最新版本。谷歌翻译的即时翻译效率可以理解,免费使用也值得称赞,但要真正理解还有很长的路要走。
周日,在我们每周的萨尔萨舞会上,我的朋友弗兰克带来了一位丹麦客人。我知道弗兰克说丹麦语很好,因为他妈妈是丹麦人,他小时候在丹麦住过一段时间。他带来的女性朋友,英语也说得很流利,听起来像标准的北欧英语。但是在晚上聊天的过程中,我惊讶的发现,他们两个以前都是用Google Translate把文本转换后再发给对方。弗兰克将用英语写一封电子邮件,然后将电子邮件的内容复制并粘贴到谷歌翻译中,以生成一个新的丹麦版本,并将其发送给他的朋友。相反,他的朋友会先用丹麦语写一封邮件,然后复制粘贴到Google Translate中生成新的英文版本。这太奇怪了!为什么两个聪明人,两个能把对方的语言说好的人,会这样做?就我个人在机器翻译软件方面的经验来说,我一直对这些软件持怀疑态度。但很显然,他们两个并没有像我一样质疑。其实很多有思想的人都痴迷于这些翻译程序。在他们看来,这些翻译程序没有什么可指责的。这让我很迷茫。
作为一个语言爱好者,一个热情的译者,一个认知科学家,一个对人脑的忠实崇拜者,我对机器翻译的关注可以追溯到几十年前。我第一次对机器翻译感兴趣是在20世纪70年代中期,当时我看到数学家沃伦·韦弗(他也是机器翻译的早期倡导者)在1947年写给诺伯特·维纳(控制论的创始人)的一封信。韦弗在他的信中提出了一个有趣的说法,这个说法今天已经广为流传:
“当我读到一篇用俄语写的文章时,我可以说,‘这篇文章其实是用英语写的,但是用一个奇怪的符号加密了,我现在就解码。’"
几年后,他提出了不同的观点:“只要你理性,你永远不会认为机器翻译能达到风、雅、赞的效果。普希金不必为此而颤抖。”我花了一年时间试图把亚历山大·普希金著名的诗化小说《叶甫盖尼·奥涅金》翻译成我的母语(也就是说,把这部伟大的俄罗斯作品翻译成英文小说)。经历了这样难忘的经历,不得不说韦弗后来的言论明显比之前的言论更贴近事实。然而,他在1947年发表的翻译被视为解码的观点长期以来一直是促进机器翻译发展的信条。
此后,“翻译引擎”逐渐发展起来。最近,由于“深度神经网络”的应用,一些观察者甚至产生了这样的感觉(参见《纽约时报》的吉迪恩·刘易斯-克劳斯(Gideon Lewis-Kraus)发表的《大AI觉醒》(The Great AI Awakening)和《经济学人》(The Economist)的莱恩·格林(Lane Greene)发表的《机器翻译:超越巴别塔》(Machine Translation: Beyond Babel)。他们认为人类翻译可能会成为濒危的职业类型。这样,人类翻译者将在几年内转变为翻译文本的质量控制和纠错人员,而不是负责产生新的翻译文本。
这样的变化会对我们的精神世界造成巨大的冲击。虽然我完全理解他们试图让机器翻译发挥最大魅力的心情,但我并不急于看到人类翻译被冰冷的机器所取代。的确,他们的这种想法让我感到害怕和厌恶。在我看来,翻译是一种奇妙的艺术形式,它依赖于人类译者多年的生活经验,需要他们运用创造性的想象力来完成。如果说人类的解释者在未来只能成为一种历史遗迹,那么我对人类心灵和思维的尊重就会彻底动摇,这种冲击会让我困惑很久,陷入无尽的悲哀。
每当我看到一些张文人声称人类翻译将很快臣服于新技术之剑,我就觉得有必要测试一下这些说法是否属实。一方面,我害怕这个噩梦很快就会到来;另一方面,我希望我可以放心,这种变化不会很快发生;最后,我认为有必要长期反击对人工智能技术的各种夸大。我了解到Google中的Google Brain最近采用了人工神经网络的传统概念和思想,利用“深度学习”技术生成了一个新的软件,声称要颠覆机器翻译。所以我觉得有必要暂时满足一下谷歌翻译的最新化身。会不会像深蓝(1997年IBM深蓝击败象棋冠军)和AlphaGo一样成为一个领域破坏者?
旧版Google Translate可以处理大量的语言类型,但最新版本的Deep Learning Translate目前只适用于9种语言。所以我把考试内容限定在英语、法语、德语、汉语。
在进一步讨论我的发现之前,我想指出,我们应该注意形容词“深度”所造成的歧义。比如我们听说谷歌收购了一家叫DeepMind的公司,它的产品有一个基于“深度学习”的“深度神经网络”。听到这里,我们可能会不由自主地想到“深刻”、“深刻”、“有力”等形容词。但实际上,这个语境中的“深度”只是意味着这些神经网络比以前的网络有更多的层次。现在可能是12层,以前只有两三层。但是这个深度是否意味着这个网络一定是深远的?不,只是语言技能。
尽管宣传很多,声势很大,但我一直对谷歌翻译持谨慎态度。虽然我对它有些反感,但不得不承认,作为我身边的一根刺,我的存在也有一些惊人的亮点。每个人都可以免费使用它,并且可以将100种语言中的任何一种转换成任何其他语言。仅此一点就非常值得骄傲。如果我为自己能说三种以上语言而自豪,那我为谷歌翻译掌握了100种语言而自豪!而且如果我把语言A的文字内容复制粘贴到Google翻译栏,可以在短时间内把文字翻译成语言B。
谷歌翻译及类似技术的实用性毋庸置疑。总的来说,这可能是好事,但也有一些严重的缺失。总结一句话,就是理解。机器翻译从来不是为了理解语言,而是一直在试图“解码”语言,试图在没有理解和意义的情况下达到翻译的目的。想翻译好,可能不需要理解?无论是人类还是机器,想要产生高质量的翻译,是否可能不重视语言的意义?为了更好的说明这个问题,我先展示一下我的实验。
谷歌英法翻译实验展示
我用一个非常简短的描述句子开始了这个实验。看到这句话可以让我们在脑海中形成一个清晰的画面:
在他们家,一切都是成双成对的。他的车和她的车,他的塔和她的塔,他的图书馆和她。(在他(她)家,一切都是成对的:有他的车,有她的车;有他的毛巾和她的;他的书店和她的书店都在。)
这个翻译任务看似简单,但在法语(和其他罗曼语)中,“他的”和“她”对应的词与主人的性别不一致,而是与名词一致。以下是谷歌翻译成法语的内容:
在你的房子里,两人一组。Il y a sa voiture et sa voiture,ses serviettes et ses serviettes,sa liberthyèque et les siennes。
任何人都知道,我说的这段话描述的是一对情侣,强调他拥有的一切,他的妻子也有同样的对应。但是Google Translate用“sa”这个词表示“他的车”和“她的车”,所以你无法分辨车主的性别。同样,“他的毛巾”和“她的毛巾”都是不分性别的复数词“ses”。在关于他和她的书店的最后一段,原文最后一个“她”里的“s”让Google Translate误以为是复数,于是最终在目标语言里以复数形式呈现(“les siennes”)。显然,谷歌翻译产生的法语句子根本没有表现出原文的重点。
接下来,我试着把原文翻译成法语,前提是我保留原文想要表达的形象。最终翻译如下:
不,我不会加倍。il y a sa voitureàelle and sa voutureàlui,ses servicesàelle and ses servicesàlui,sa liberthy queàelle and sa liberthy queàlui。
" sa voiture à elle "代表"她的车",而" sa voiture à lui "只能翻译为"他的车"。然后,我想如果法语内容用Google Translate翻译成英语应该没问题,但是我太天真了。它给了我以下的英文翻译:
在家里,他们什么都有。有他自己的车,他自己的车,他自己的毛巾,他自己的毛巾,他自己的图书馆,他自己的图书馆。(在家里,他们什么都加倍,包括他自己的车和他自己的车,他自己的毛巾和他自己的毛巾,他自己的书店和他自己的书店。)
什么鬼东西?即使我给出的内容清晰有力地表达了货主的性别,Google机器翻译还是无视我的呼喊,把货主都变成了男人。为什么要扔掉这句话最重要的信息?
我们人类对夫妻、房子、个人财产等有形的东西有一些爱好,这些爱好受到骄傲、竞争、嫉妒、隐私等许多无形情感的影响。比如夫妻使用的毛巾上分别绣有“他”和“她”的字样。谷歌翻译显然不熟悉这种情况。或者可以说谷歌翻译对任何现实都不熟悉。Google Translate只熟悉单词组成的字符串,是超快的文本转换,不是思考或想象,也不是记忆或理解。它甚至不知道单词是什么意思。但我想说,原则上,一个计算机程序肯定可以知道语言的含义,也可以让自己有想法、记忆和经验,并加以利用,但这并不是Google Translation的初衷,他们的设计师甚至没有把这样的想法纳入未来目标的范围。
嗯,我承认看到Google Translation这么差的表现让我窃喜,因为我终于可以松一口气了。显然,机器翻译取代人工翻译的时代并不在眼前。但是我觉得我还是应该更仔细的继续这个实验,毕竟还没有到“一咽不解渴”的程度。
谷歌翻译我的新短语“一燕不成夏”怎么样?忍不住想试一试,但Google Translate提供的法文版是这样的:“Une hirondelle n'aspire pas la soif。”这句话从语法角度来说不是问题,但是意思很难理解。一开始,“une hirondelle”指的是一种鸟——燕子,然后它说这种鸟不吸气也不吸(“n'aspire pas”),最后它的意思是这种既不吸气也不吸的东西是渴的(“la soif”)。很明显,谷歌翻译没有理解我想表达的意思,我翻译的只是一派胡言。
德语翻译展
试完法语,再来看德语。最近,我一直沉浸在奥地利数学家卡尔·西格蒙德的著作《维也纳学派》(他们自称维也纳学派)中。这本书描述了20世纪二三十年代一群理想主义的维也纳知识分子,他们对20世纪的哲学和科学产生了巨大的影响。我摘抄了西格蒙德书中的一小段,复制粘贴到谷歌的翻译专栏。详见下文,首先是德语,其次是我的翻译版,最后是Google翻译版。(对了,我把我的版本给了两位德语母语者(其中一位是卡尔·西格蒙德),所以我的版本应该没问题。)
Sigmund原文:
Krieg·萨亨教授是德国的一名教授,他是德国的一名教师,他是德国的一名教师。我是葛军·威斯敏斯特的教练。和Wissenschaftlerinen Kamen so wieso不在frageüber wenig war man sich einiger .
我的版本:
失败后,许多具有泛日耳曼主义倾向的教授(当时他们占教职员工的大多数)认为保护高等教育机构不受“不受欢迎的人”的影响是他们的职责最有可能被解雇的是年轻的sc holars,他们还没有获得教授大学课程的权利。至于女学者,嗯,她们在体制内根本没有地位;没有比这更清楚的了。(失败后,占当时教职人员大多数的教授有泛德倾向,认为保护高等教育机构不受“政治不良分子”的影响是他们的责任。最容易被炒鱿鱼的年轻学者是那些没有获得终身职位的人。很明显女学者在体制内根本没有地位。)
谷歌翻译版:
在战争失败后,许多德国教授,同时也是大多数教师,认为他们有责任让大学远离“奇怪”;年轻科学家在适应训练前最脆弱。无论如何,科学家没有质疑;战败后,许多德国教授以及大多数大学教职员工都将保护大学免受“怪人”侵害视为自己的责任。那些还没有获得特许证教学资格的年轻科学家是最弱势的群体……不知道为什么。)
Google翻译的版本都是由拼写正确的英文单词组成,看起来不错。但是你很快就会发现这个翻译根本站不住脚,内容越往后越经不起推敲。
第一个是“odd”这个词,对应的是德语原文中的“ungeraden”,意思是“政治领域不受欢迎的人”。Google Translate显然出于某种原因选择了“odd”这个词,其实纯粹是基于统计结果。也就是说,在谷歌庞大的双语数据库中,“ungeraden”这个词几乎总是被翻译成“odd”。而我选择用“不受欢迎的人”这个词来表示“ungeraden”,这与统计数据无关,纯粹是基于我对语义的理解。只有这样,我才能传达出文中没有说清楚的意思,但实际上我想这样表达。用“不受欢迎的人”来翻译“不受欢迎的人”可能是在任何德语词典中都找不到的一对。
接下来我们来看一下德语原文中的“Habilitation”,用来表示类似终身教职的大学教学资格或地位。它的同源词“habilitation”在英语中也可以找到,但其实这个词很少见,也不会与终身任职或其他类似信息联系在一起。正因为如此,我会用一个短语来解释这个意思,而不是直接引用这么一个模糊的词,因为机械地以这种方式引用产生的译文无法向英语读者传达准确的信息。当然,Google Translate不能像我一样给出翻译版本,因为它对读者的知识模型一无所知。
现在,我们来看看最后三句话。相信你会明白理解对翻译是多么重要。15个字母的德语名词“Wissenschaftler”的意思是“科学家”或“学者”(我选择了后者,因为在这个语境下,指的是普通知识分子,这是Google翻译无法理解的细微差别。“Wissenschaftlerinnen”由20个字母组成,是“Wissenschaft lerin”(17个字母)的复数形式,反映了德语名词中的性别差异。较短的名词在语法上是正的,因而代表一个男学者,而较长的名词是负的,代表女学者。我用“女学者”这个词来表达原文的意思。但Google Translate没有注意到正后缀“-in”是这句话的重点,所以只使用了“科学家”一词对应“Wissenschaftlerinnen”,遗漏了这句话的要点。就像我上面用的法语,Google Translate没有意识到这句话的唯一目的就是突出男女对比。
除了这个错误,最后两句的翻译正是事故现场。先看看“科学家无论如何都没有质疑”这句话。这真的是“骨折中的wissenschaft lerin nen Kamen sowiesonicht”这句翻译吗?英文翻译表达的根本不是原文的意思,甚至可以说是完全错误的。这个英文翻译只是根据德语原话一个一个找对应的英文单词放在一起。这种输出过程和内容可以称之为翻译吗?
最后一句也是错误的。德语原文是“对此没有异议”或“这是绝对清楚的”,但Google Translate给出的翻译是“有很多”(几乎没有)。这句话听起来令人困惑,这就引出了一个问题,“什么什么?(几乎什么都没有?)”但对于机械听者Google Translate来说,这样的问题毫无意义。Google Translate不知道这些词是什么意思,所以它可能连看似简单的问题都回答不了。Google翻译只是将一种语言符号转换成另一种语言符号,对符号可能象征的信息和意义没有概念。
伊莱扎效应与人类译员的翻译过程
对于一个有真实生活经验,知道如何用词造句准确传达意思的人来说,似乎很难意识到空是如何在我们的电脑屏幕上挖洞Google Translate输出的翻译文本的。人们总是习惯性地认为,这样一个能流畅处理文字的软件,一定知道如何表达意思。这是典型的人工智能项目的错觉,被称为“伊莱扎效应”(意思是人可以过度解读机器的结果,读出原来的意思)。伊莱扎是20世纪60年代早期的人工智能项目,它可以通过脚本理解简单的自然语言,并像人类一样进行交互。其中伊莱扎假装是心理治疗师,很多与之互动的人都认为伊莱扎真的知道自己内心最深处的感受。
几十年来,即使是有经验的人和人工智能领域的一些研究人员也陷入了伊莱扎效应的陷阱。为了保证我的读者能够避开这个陷阱,我来引用一下上一段说的一些短语,比如“Google翻译不懂”,“它没意识到”,“Google翻译根本没想到”。虽然这些短语反复强调谷歌翻译缺乏对句子的理解,但实际上,这些单词也表达了谷歌翻译至少有时应该理解单词、短语或句子的意思,或者至少知道他们说什么。但事实并非如此。Google Translate一直在试图绕过或者避开理解语言的环节。
对我来说,“翻译”这个词散发着神秘的光芒,让人细细品味。翻译是人类的一种深刻的艺术形式,它将语言A中的思想清晰生动地传达给语言b。要发挥桥梁的作用,翻译不仅要保持语义的清晰,还要保持原作者的写作风格、词句和文体特征。我翻译的时候,总是把原文看的很仔细,尽量把原文的意思内化清楚,在脑子里反复回放。这不是反复回放原文,而是原文的意思和思路会在脑海中触发各种相关的想法,创造各种相关的场景,产生一系列的光环。这个过程在很大程度上是一个无意识的过程,我不会开始试图用另一种语言自然地表达它们,直到光环完全聚集在一起,激发出足够的反应。
简而言之,在翻译的过程中,我不会简单地把A语言的单词和短语转换成b语言的单词和短语,脑海里会浮现出图像、场景和想法,我会想起自己的经历(在书中读到的、在电影中看到的或者从朋友那里听到的)。只有当这种非语言的、生动的、现实的气场形成,只有当难以捉摸的意义形成的气泡浮在我的脑海里,我才会开始输出目标语言的单词和短语,然后进行修改、修改、再修改。这样一个通过理解原文意思来推进的过程,听起来可能很慢,确实比Google翻译每页两到三秒的响应时间慢很多,但这是一个任何严谨的人类译者都会经历的过程。这是我听到“深脑”这类词时想到的。
汉英翻译展览
相比以上两种欧洲语言,中文对于这个深度学习软件的考验显然更为严峻。至于语文考试资料,我从中国剧作家兼翻译家江洋写的《我们仨》一书中摘录了一段,复制粘贴到Google翻译专栏。以下是《我们仨》的原文段落,我翻译的版本(请母语为中文的人审阅)和Google翻译给出的版本:
杨澜原文:
在清华工作一年后,钟书被调到毛选翻译委员会,住在城里,周末回到学校。他还在负责研究生。
毛选翻译委员会的组长是许同志。是清华的同学乔同志介绍来做这个工作的。
晚饭后,一位老朋友雇了一辆人力车从城里来祝贺他。客人走后,钟书害怕地对我说:
他以为我要走在南书房。做起来不容易。我们不求有功,但求无过。
我的翻译版本:
钱钟书在清华大学工作一年后,被调到翻译《毛主席选集》的委员会。他住在城里,但每个周末他都会回到学校。他还在指导他的研究生。
毛泽东著作翻译委员会的负责人是许同志,安排中书翻译的是他的老清华同窗乔同志。
就在这个约会定下来的那天,晚饭后,一个老朋友特地雇了一辆人力车,从城里一路赶来,就是为了祝贺钟书。客人走后,钟书不安地转向我说:
“他以为我会成为‘南方研究特别助理’这种工作不容易。你不能指望荣耀;你所能期望的就是做到没有错误。"
谷歌翻译版:
在清华工作一年后,他被调到毛翻译委员会,住在城里,周末回到学校。他还是研究生。
毛泽东翻译委员会的领导是徐永健同志。介绍这本书做这项工作的是清华学生乔同志。
活动当天,晚饭后,一位老朋友从城里雇了一辆人力车来祝贺。客人要走了,书中的恐惧对我说:
他以为我要做“南学走”这不是好事,不是为了立功,而是白做。
让我简要指出谷歌翻译和原文之间的一些差异。首先,谷歌翻译没有提到“钟书”一次,但这个名字在原文中出现了三次。在Google的翻译中,第一次使用“他”,第二次翻译成“书”,第三次翻译成“书中恐惧之书”。太可笑了!
第二个出入是原文明确显示钱钟书是在指导研究生,而Google Translate直接把他变成研究生。
第三位是“毛泽东翻译委员会”,省略了毛泽东主席名字的最后一个字。
第四个地方是,原来的“许应永”已翻译成了“徐永健”。
第五处是“客人走了之后”已经翻译成“客人要走了”。
第六位是最后一句。没有任何意义。
这六个错误对于Google翻译来说已经够尴尬的了,但这里不需要责怪。我想和你讨论一句让我困惑的话,“南书房走”。这个短语由五个汉字组成,可能是“南书室走走”。但拼凑起来显然无法表达原文的意思,需要注意的是“南学走”在原文中是作为名词存在的。Google Translate发明了“南书房走”这句话,显然还是不知道为什么。
我不得不承认这句话对我来说很难理解。虽然从字面上来说,似乎是指走在一栋楼南边的书房里,但我知道应该不是这个意思,因为根据上下文没有意义。所以,如果我想准确翻译这句话,我需要在它背后挖掘出一些我在中国文化中不理解的东西。那么我应该在哪里找到答案呢?当然是Google(但不是Google翻译)。我把“行走在南书房”这五个汉字输入谷歌搜索栏,加了双引号,然后开始搜索。很多中文网页马上就出现了,然后我费了好大劲才把前几个网页开头的信息弄懂,想搞清楚这五个字的意思。
我发现“南书房走”这个名词其实可以追溯到清朝。并不是指官职,而是皇家知识分子翰林担任的“差事”,其职责是帮助皇帝(在皇宫南书房)起草“特别圣旨”。这样就很容易理解“走就走”这个词的字面意思是助手。所以根据Google搜索提供的信息,我用“南学特别助手”来表达原文的意思。
很遗憾谷歌翻译不能像我一样使用谷歌搜索中的信息。虽然Google Translate可以即时翻译网页内容,但它并不理解网页中的信息。以下是我在谷歌翻译后搜索《行走在南书房》时浏览的网页信息版本:
“南学行走”并不是官职,在大清时代之前这只是一个“信使”,一般由当时的科举知识分子翰林担任。南书房在翰林官员中以“择蔡晨唯品而优”为价值,称为“南书房散步”因为接近皇帝,所以对皇帝的决定有一定的影响。雍正后来设置了“军机”军机大臣,专职学习,虽仍为翰林入值,但没有参与政务。清代学者对入南学的价值引以为傲。许多学者和清初学者通过研究进入南方。
这是英语吗?这是事实。我们都同意上面的段落是由英文单词组成的(大部分),但这是英文段落吗?在我看来,这一段不是英文段落,而是由随机单词沙拉组成的零散大杂烩。
以下是我花了几个小时做的同一内容的英文翻译,供你参考:
南-方舒-星洲(“南学特别助理”)不是一个官方职位,但在清初,这是一个特殊的角色,通常由皇帝的现任知识分子院士担任。在皇宫南书房工作的一群阿卡德米西亚人会在他们中间选择一个才华横溢、品德高尚的人来为皇帝代笔,并随时听候皇帝的吩咐;这就是为什么这个角色被称为“南方研究特别助理”这位《南方研究》的助手与皇帝如此亲近,显然能够影响后者的政策决定。然而,雍正帝建立了一个有一名大臣和各种较低职位的官方军事部后,南方研究助手尽管仍在为皇帝服务,但不再在政府决策中发挥主要作用。尽管如此,清代学者渴望在皇帝的南学工作的荣耀,在清朝早期,相当多的著名学者作为南学的特别助手为皇帝服务。
有些读者可能会怀疑我为了攻击Google Translate故意找了一些比较难的段落。他们认为谷歌翻译实际上在大多数段落中表现得更好。这听起来很合理,其实不然。我从我读的书里选了很多段落来测试,几乎每一段都会有不同形式和大小的翻译错误,包括上面提到的完全不认识所以又无法理解的句子。
当然,我也承认Google Translate有时候会产生一系列看起来不错的英文句子(虽然可能与原意有一些误解或者完全错误),有时候看起来一段甚至两段翻译的内容都很优秀,给人一种Google Translate理解自己所读内容的错觉。在这种情况下,人们会用新的眼睛和耳朵看待谷歌的翻译,认为它几乎可以与人类媲美。我们应该赞美谷歌翻译的创作者和背后的集体努力,但同时也不要忘记谷歌翻译在这两段中文中的翻译表现,以及前面的法文和德文段落。要想理解这种不足,必须时刻提醒自己伊莱扎效应。Google翻译不是像正常人一样“阅读”文本,而是处理文本。它处理的符号与现实世界的体验是分离的。当它快速转换文字时,没有真实的经验可提取,没有图片可形成,没有理解,没有意义。
几个问题的探讨
有朋友问我,谷歌翻译的水平是否不仅仅是由程序数据库决定的?他认为,如果数据库可以扩大100万倍,甚至10亿倍,应该可以翻译任何内容,翻译基本可以达到完美的水平。我不同意他的观点。拥有更多的“大数据”在理解上是不会有任何进步的,因为理解是需要思想来发挥作用的,而缺乏思想是机器翻译中一切问题的根源。所以,我敢说,更大的数据库解决不了问题。
另一个问题是,在Google Translation中使用神经网络能否使机器翻译更接近于理解语言。听起来很有道理,但实际上机器翻译并没有试图超越单词和短语的层面。构成庞大数据库的各种统计事实都体现在神经网络中,但这些统计事实只是把文字和其他文字联系起来,而不是把文字和思想联系起来。如果不试图创建一个可以被视为思想、图像、记忆或经验的内部结构,这些属于人类的心理活动仍然很难从计算层面反映出来,所以他们使用一种快速而复杂的统计词聚类算法作为替代。但这种形式的结果并不符合人类在阅读、理解、创造、修改、评判一篇文章时的最终思想。
虽然我对Google Translate持否定态度,但是Google Translate提供的服务确实让很多人给予了很高的评价:它可以将A语言的表意段落快速转换成B语言的单词串组成的文本。只要一些B语言的文字可以理解,这就足以让很多人对这个产品满意了。如果他们能通过谷歌翻译理解他们不知道的一段语言的大致意思,他们会很高兴。虽然这不符合我个人对“翻译”这个词的看法,但对很多人来说,这是一个很好的服务。对他们来说,这就是翻译。我知道他们的需求,我理解他们的快乐和满足。只能说他们运气好!
最近看到一些技术发烧友制作的条形图,声称这些图表反映了人和机器翻译的“质量”,认为最新的翻译引擎和人的翻译之间的距离缩小到了惊人的程度。但对我来说,这是一种把无法量化的东西量化的伪科学,或者是一群书呆子在数学上计算着他们无法理解的无形的、细微的、艺术的东西。在我看来,Google Translate的输出质量参差不齐,有优秀的翻译,也有荒谬的翻译,但我无法量化我的感受。想想我在这篇文章里举的第一个例子,里面有“他”和“她”的法语素材。机器翻译几乎可以实现每个单词的正确对应,但尽管如此,原文最重要的意义却根本没有表达出来。在这样的情况下,如何“量化”其翻译质量?用看似科学的条形图来反映翻译质量,只不过是对科学外表的滥用。
让我们回到文章开头提到的悲剧译者形象。好像很快就要淘汰了,以后只会成为质检人员和文字校对人员的翻译形象。这充其量只能形容那些平庸的译者。一个认真的艺术家不会一开始就给错误一个粗略的版本,然后再去弥补,以至于不能产生高质量的艺术作品,这不是艺术的本质,翻译是一门艺术。
在我多年的创作生涯中,我一直认为人脑是一个机器,一个非常复杂的机器,我强烈反对机器不能控制本质意义的观点。甚至有一个哲学流派声称,计算机永远不会“理解语义”,因为它们是由“错误的东西”(硅)构成的。在我看来,这只是一些可以不假思索地说出来的废话。在这里,我就不争论这个论点了,但我不希望读者有这样的印象,也不希望读者误以为我的观点是计算机得不到智慧,实现不了理解。如果我在这篇文章中给你这样的误解,那是因为我一直在讨论机器翻译,没有试图再现人类的智慧。相反,它试图绕过人类的智能,而我上面展示的Google翻译输出文本清楚地揭示了它的巨大缺陷。
就我而言,我们没有根本的依据断言未来机器不会有创造性、趣味性、怀旧性、兴奋性、恐惧性、狂喜性和希望性,从而断言未来机器翻译无法实现两种语言之间的生动翻译。同样,我们没有根本的理由可以否定机器翻译在未来成功翻译笑话、双关语、电影剧本、小说和诗歌的潜力。但是,只有当机器翻译像人类一样充满思想、感情和经验的时候,我说的才会成真。而现在,这些都无法实现,也不是距离遇见爱情指日可待。其实我觉得要做到这一点还有很长的路要走,至少这是一个我是人类思维的终极崇拜者的结果。
有一天,如果一个翻译引擎能够准确的翻译出一首五音步抑扬格准确的诗,传达出原文的智慧、悲伤和文体魅力,那么我知道,终于到了摘掉帽子进行机器翻译的时候了。
原文链接:https://www . the Atlantic . com/technology/archive/2018/01/the-smooth-of-Google-translate/551570/
由编译团队编译。编辑:郝鹏程
1.《chrome翻译 深度剖析谷歌翻译:浅薄而冰冷,一时还取代不了人类译员》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《chrome翻译 深度剖析谷歌翻译:浅薄而冰冷,一时还取代不了人类译员》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1587894.html