西安翻译公司 西安翻译公司 西安翻译公司
123

谷歌翻译能替代人工翻译吗?

 【编者按】谷歌于9月27日发布了论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介绍谷歌的神经机器翻译系统(GNMT),宣布将 GNMT 投入到了非常困难的中英翻译中,据称其准确度已"接近人工笔译"! 有人称它为"翻译界的重大突破",还有人担忧"翻译要下岗"。

 


  谷歌于前天(9月27日)发布了论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介绍谷歌的神经机器翻译系统(GNMT),并于昨天(9月28日)在谷歌 Research Blog 发布文章对该研究进行了介绍,还宣布将 GNMT 投入到了非常困难的中英翻译中,据称其准确度已"接近人工笔译"! 有人称它为"翻译界的重大突破",还有人担忧"翻译要下岗"。

  谷歌发布的论文和博客到底讲的什么?

  我们综合了论文内容和Techcrunch的一篇入门级技术文章,将神经机器翻译的难题与Google的解决方案及目标达成结果整理如下:

  神经机器翻译一直以来面对的难题有两个,一是训练和翻译过程代价巨大,数据和模型的超大规模经常让传统训练无法顺利进行。二是神经机器翻译系统在生僻字处理过程中没有形成一个健全的解决方案。

  Google神经机器翻译(GNMT)针对这些问题提出了自己的解决办法,新的注意机制(Attention Mechanism)将解码层的低端和编码层的开端连接在一起,提高平行计算以减少训练时长。

  对于生僻字的处理,Google选择进行"个个击破"战术,我们可以把Google神经机器翻译的过程比作人在看到一幅画时大脑的处理过程:面对一幅美术作品,我们会看到整个画面,也会注意到画里的小素材。这也是Google对罕见词翻译时的处理方式。神经机器翻译会把罕见词分为单字进行拆解并放在上下文中进行考量。这种生僻字解决办法增加了翻译的准确率和可读性。论文结论是,Google的神经机器翻译比起其前期的基于短语的翻译系统将翻译错误平均降低了60%。

  真的这么牛吗?我们不妨来实际一下谷歌神经机器翻译的整篇翻译能力。如下,我们列举了Google研究博客发表的技术性较强的关于神经机器翻译的正文,与Google神经机器翻译所做的英译中文本,还有人工笔译结果(源自机器之心公众号),大家来对照看看:

  英文原文:Ten years ago, we announced the launch of Google Translate, together with the use of Phrase-Based Machine Translation as the key algorithm behind this service. Since then, rapid advances in machine intelligence have improved our speech recognition and image recognition capabilities, but improving machine translation remains a challenging goal.

  谷歌机翻:十年前,我们宣布推出谷歌的翻译,与使用短语基于机器翻译的,因为该服务背后的关键算法在一起。此后,机器智能的快速发展,提高了我们的语音识别和图像识别能力,而且提高了机器翻译仍然是一个具有挑战性的目标。

  人工笔译:十年前,我们发布了 Google Translate(谷歌翻译),这项服务背后的核心算法是基于短语的机器翻译(PBMT:Phrase-Based Machine Translation)。自那时起,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个高难度的目标。

  英文原文:Today we announce the Google Neural Machine Translation system (GNMT), which utilizes state-of-the-art training techniques to achieve the largest improvements to date for machine translation quality. Our full research results are described in a new technical report we are releasing today: "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation" [1].

  谷歌机翻:今天我们宣布谷歌神经机器翻译系统(GNMT),它利用国家的最先进的训练技术,以实现最新机器翻译的质量最大的改进。我们充分的调研结果在我们今天推出一项新的技术报告中描述:"谷歌的神经机器翻译系统:弥合人类与机器翻译差距"[1]。

  人工笔译:今天,我们宣布发布谷歌神经机器翻译(GNMT:Google Neural Machine Translation)系统,该系统使用了当前最先进的训练技术,能够实现到目前为止机器翻译质量的最大提升。我们的全部研究结果详情请参阅我们的论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》。

  英文原文:A few years ago we started using Recurrent Neural Networks (RNNs) to directly learn the mapping between an input sequence (e.g. a sentence in one language) to an output sequence (that same sentence in another language) [2]. Whereas Phrase-Based Machine Translation (PBMT) breaks an input sentence into words and phrases to be translated largely independently, Neural Machine Translation (NMT) considers the entire input sentence as a unit for translation.The advantage of this approach is that it requires fewer engineering design choices than previous Phrase-Based translation systems. When it first came out, NMT showed equivalent accuracy with existing Phrase-Based translation systems on modest-sized public benchmark data sets.

  谷歌机翻:几年前,我们开始使用递归神经网络(RNNs),直接学习输入序列(例如,在一种语言的句子),以输出序列(另一种语言,同一个句子)之间的映射关系[2]。而短语基于机器翻译(PBMT)打破了整句输入到单词和短语,在很大程度上独立翻译,神经机器翻译(NMT)认为,整个输入句子作为这种方法的优点translation.The一个单位,它需要较少的工程设计的选择比以前的短语为基础的翻译系统。当它第一次出来,NMT表现出与上中等规模的公共基准数据集现有的短语为基础的翻译系统精度相当。

  人工笔译:几年前,我们开始使用循环神经网络(RNN:Recurrent Neural Networks)来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。其中基于短语的机器学习(PBMT)将输入句子分解成词和短语,然后在很大程度上对它们进行独立的翻译,而神经机器翻译(NMT)则将输入的整个句子视作翻译的基本单元。这种方法的优点是:相比于之前的基于短语的翻译系统,这种方法所需的工程设计更少。当其首次被提出时,NMT 在中等规模的公共基准数据集上的准确度,就达到了可与基于短语的翻译系统媲美的程度。

  英文原文:Since then, researchers have proposed many techniques to improve NMT, including work on handling rare words by mimicking an external alignment model [3], using attention to align input words and output words [4] and breaking words into smaller units to cope with rare words [5,6]. Despite these improvements, NMT wasn't fast or accurate enough to be used in a production system, such as Google Translate. Our new paper [1] describes how we overcame the many challenges to make NMT work on very large data sets and built a system that is sufficiently fast and accurate enough to provide better translations for Google's users and services.

  谷歌机翻:自那时以来,研究者提出了许多技术来提高NMT,包括通过模仿外部对准模型[3]处理罕见词语工作,使用注意对准输入字和[4]输出字和分断字划分成小单位,以应付稀有词语[5,6]。尽管有这些改进,NMT是不是快或不够准确在生产系统中使用,如谷歌翻译。我们的新文献[1]介绍了我们克服了许多挑战做出非常大的数据集NMT工作,建立了一个系统,是足够快,足够精确,为谷歌的用户和服务更好的翻译。

  人工笔译:自那以后,研究者已经提出了很多改进 NMT 的技术,其中包括模拟外部对准模型(external alignment model)来处理罕见词,使用注意(attention)来对准输入词和输出词 ,以及将词分解成更小的单元应对罕见词。尽管有这些进步,但 NMT 的速度和准确度还没能达到成为 Google Translate 这样的生产系统的要求。我们的新论文描述了怎样克服让 NMT 在非常大型的数据集上工作的许多挑战、如何打造一个在速度和准确度上都足够能为谷歌 用户和服务带来更好的翻译体验的系统。

   


  英文原文:Data from side-by-side evaluations, where human raters compare the quality of translations for a given source sentence. Scores range from 0 to 6, with 0 meaning "completely nonsense translation", and 6 meaning "perfect translation."

  谷歌机翻:从并排侧评估,其中人工评级比较的翻译给定的源句子的质量数据。分数范围从0到6,0表示"完全胡说八道翻译",和6个意思是"完美的翻译。"

  人工笔译:来自对比评估的数据,其中人类评估者对给定源句子的翻译质量进行比较评分。得分范围是 0 到 6,其中 0 表示"完全没有意义的翻译",6 表示"完美的翻译"。

  英文原文:The following visualization shows the progression of GNMT as it translates a Chinese sentence to English. First, the network encodes the Chinese words as a list of vectors, where each vector represents the meaning of all words read so far ("Encoder"). Once the entire sentence is read, the decoder begins, generating the English sentence one word at a time ("Decoder"). To generate the translated word at each step, the decoder pays attention to a weighted distribution over the encoded Chinese vectors most relevant to generate the English word ("Attention"; the blue link transparency represents how much the decoder pays attention to an encoded word).

  谷歌机翻:下面的可视化显示GNMT的进展,因为它翻译一个句子中国英语。首先,该网络编码中国字作为载体的列表,其中,每个向量表示到目前为止读到的所有词语的含义("编码器")。一旦整个句子被读出,解码器开始,在时间("译码器")生成的英语句子一个字。在每一步产生的译词,解码器注重在最相关的生成英文单词编码中国向量的加权分布("注意";蓝色链接透明度表示解码器多少注重编码字)。

  人工笔译:该网络将该汉语句子的词编码成一个向量列表,其中每个向量都表征了到目前为止所有被读取到的词的含义(编码器(Encoder))。一旦读取完整个句子,解码器就开始工作--一次生成英语句子的一个词(解码器(Decoder))。为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关的编码的汉语向量的权重分布(「注意(Attention)),蓝色链接的透明度表示解码器对一个被编码的词的注意程度)。

   

 

   英文原文:Using human-rated side-by-side comparison as a metric, the GNMT system produces translations that are vastly improved compared to the previous phrase-based production system. GNMT reduces translation errors by more than 55%-85% on several major language pairs measured on sampled sentences from Wikipedia and news websites with the help of bilingual human raters.


  谷歌机翻:使用人类的额定侧方比较作为度量,则GNMT系统产生被相比以前的基于短语的生产体系大大提高了翻译。 GNMT对维基百科采样句子和新闻网站双语人工评级的帮助下测得的几种主要语言对超过55%-85%,减少了翻译错误。

  人工笔译:使用人类评估的并排比较作为一项标准,GNMT 系统得出的翻译相比于之前基于短语的生产系统有了极大提升。在双语人类评估者的帮助下,我们在来自维基百科和新闻网站的样本句子上测定发现:GNMT 在多个主要语言对的翻译中将翻译误差降低了 55%-85% 甚至更多。

   


  英文原文:An example of a translation produced by our system for an input sentence sampled from a news site. Go here for more examples of translations for input sentences sampled randomly from news sites and books.

  谷歌机翻:通过我们的系统,用于从新闻网站采样的输入句子生成的翻译的一个例子。去这里的翻译从新闻网站和书籍,随机采样的输入句子的例子。

  人工笔译:上图是我们的系统在一个新闻网站上选取句子之后,进行翻译的范例。点击此处获取更多从新闻网站和书籍中随机抽取的例句翻译样本。

  英文原文:In addition to releasing this research paper today, we are announcing the launch of GNMT in production on a notoriously difficult language pair: Chinese to English. The Google Translate mobile and web apps are now using GNMT for 100% of machine translations from Chinese to English-about 18 million translations per day. The production deployment of GNMT was made possible by use of our publicly available machine learning toolkit TensorFlow and our Tensor Processing Units (TPUs), which provide sufficient computational power to deploy these powerful GNMT models while meeting the stringent latency requirements of the Google Translate product. Translating from Chinese to English is one of the more than 10,000 language pairs supported by Google Translate, and we will be working to roll out GNMT to many more of these over the coming months.

  谷歌机翻:除了今天发布这个研究论文,我们宣布在生产中推出GNMT的一个非常困难的语言对:中国人英语。谷歌翻译的移动和现在的Web应用程序所使用的GNMT机器翻译从中国到每天英语约1800万翻译的100%。 GNMT的生产部署是通过使用我们的公开可用的机器学习工具包TensorFlow和我们的张量处理单元(热塑性聚氨酯),提供足够的计算能力来部署这些功能强大的GNMT模式,同时满足谷歌的严格延迟要求翻译的产品成为可能。从中国翻译成英语是由谷歌翻译支持10000多个语言对之一,我们将努力在未来几个月内推出GNMT到更多的这些。

  人工笔译:今天除了发布这份研究论文之外,我们还宣布将 GNMT 投入到了一个非常困难的语言(汉语-英语)的翻译的生产中。现在,移动版和网页版的 Google Translate 的汉英翻译已经在 100% 使用 GNMT 机器翻译了--每天大约 1800 万条翻译。GNMT 的生产部署是使用我们公开开放的机器学习工具套件 TensorFlow 和我们的张量处理单元(TPU:Tensor Processing Units),它们为部署这些强大的 GNMT 模型提供了足够的计算算力,同时也满足了 Google Translate 产品的严格的延迟要求。汉语到英语的翻译是 Google Translate 所支持的超过 10000 种语言对中的一种,在未来几个月,我们还将继续将我们的 GNMT 扩展到远远更多的语言对上。

  英文原文:Machine translation is by no means solved. GNMT can still make significant errors that a human translator would never make, like dropping words and mistranslating proper names or rare terms, and translating sentences in isolation rather than considering the context of the paragraph or page. There is still a lot of work we can do to serve our users better. However, GNMT represents a significant milestone. We would like to celebrate it with the many researchers and engineers-both within Google and the wider community-who have contributed to this direction of research in the past few years.

  谷歌机翻:机器翻译是没有解决的办法。 GNMT仍然可以显著的错误,翻译人员会落空,就像在隔离下探文字和mistranslating专有名称或稀有条款,翻译句子而不是考虑的段落或页面的上下文。还有很多我们可以做服务我们的用户提供更好的工作。不过,GNMT代表显著的里程碑。我们愿与在谷歌的许多研究人员和工程师和庆祝它更广泛的社会,谁在过去几年的研究这个方向作出了贡献。

  人工笔译:机器翻译还远未得到完全解决。GNMT 仍然会做出一些人类翻译者永远不出做出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或页面的上下文。为了给我们的用户带来更好的服务,我们还有更多的工作要做。

  但是,GNMT 代表着一个重大的里程碑。我们希望与过去几年在这个研究方向上有所贡献的许多研究者和工程师一起庆祝它--不管是来自谷歌还是更广泛的社区。

  英文原文:

  Acknowledgements:

  We thank members of the Google Brain team and the Google Translate team for the help with the project. We thank Nikhil Thorat and the Big Picture team for the visualization.

  谷歌机翻:

  致谢:

  我们感谢谷歌大脑小组成员和谷歌翻译团队与项目的帮助。我们感谢尼基尔Thorat和大图片队伍,为可视化。

  人工笔译:

  致谢:

  我们对Google Brain和Google Translation团队对此项目给予的帮助表示由衷的感谢。并感谢Nikhil Thorat和Big Picture团队的视觉呈现。

  【参考文献略】

  全文结束。怎么样,对比下来,感觉谷歌机器翻译是否已"接近人工笔译"了呢?还会担忧"翻译要下岗"吗?

——选自:译声西安翻译公司

 

译声西安翻译公司目前是国内专业的翻译机构之一,译声西安翻译公司秉承“诚信 专业”的服务理念,为国内外客户提供一流翻译服务。了解更多信息:请直接致电:400-600-6870咨询。

 

发表评论:

热门城市:
西安区县:

在线客服

QQ客服一
在线客服QQ10932726
QQ客服二
在线客服QQ10932726
QQ客服三
在线咨询