Page 1 of 1

翻译器 - 从统计到机器学习

Posted: Tue Dec 10, 2024 7:02 am
by rakibhasan32
谷歌翻译服务(捷克语简称为 Překladáč)首次推出。经过十三年的运营,该平台已成为互联网上最著名的自动词典和翻译器。它的运营仍然完全免费,目前提供 103 种世界语言的翻译。据谷歌统计,每天有超过 5 亿台式电脑、智能手机或平板电脑用户使用该服务。仅从如此庞大的数字来看,显然这是互联网巨头的又一次垄断。此外,翻译质量每天都在提高……


但整个过程是如何进行的呢?以前,当输入所需短语时,翻译器开始在丰富的(不仅仅是)官方文档数据库中搜索匹配模式。例如,其中包括欧洲议会或联合国的庞大数据库。然后,他对最佳翻译进行了统计评估。根据这种工作方式,这项技术也得名——统计机器翻译(SMT——Statistical Machine Translation)。但任何使用过该服务的人都知道,结果并不总是恰好两次。谷歌翻译经常受到嘲笑,翻译器本身也成为了网上对低质量翻译的诽谤。

但他们在谷歌并没有等待任何事情。当统计算法无法按 加拿大手机号码数据库 预期工作时,机器学习就会发挥作用。 2016 年 11 月,翻译器被重新编程为谷歌神经机器翻译(GNMT)技术。不同之处在于,如今的算法不再一点一点地翻译每个句子,而是一次全部翻译。这样做时,他们可以识别句子的上下文,并将这些知识用于整体翻译。例如,在从捷克语到英语的翻译(反之亦然)中,我们今天已经可以遇到特别令人印象深刻的准确性,并且 GNMT 系统正在逐渐集成到其他语言中。

近几个月来,他们在美国多文化人口地区的医院中测试了谷歌翻译。结果非常令人满意。在总共 647 个句子中,共有 594 个完全正确地翻译成西班牙语,而 522 个案例被正确翻译成更复杂的中文。在其余案例中,这些大多是小错误,但为了研究的完整性,还评估了误解最终可能导致患者出现并发症的案例——53 个西班牙语句子不准确中有 15 个,50 个不准确。 125个错误的中文短语。算法的整体进度很难准确计算,但谷歌毫不怀疑,几年内这项服务将在全球范围内达到几乎 100% 的成功率。

Image


Google 文档 - 语法检查的新水平
他们早在2006年3月就在Google推出了自己的文字处理器。得益于云平台和Google Drive的繁荣,Google Docs如今也非常流行。对于协作处理各种项目的人们来说,实时在线编辑简直是比在 Word 中不断转发文件更有效的解决方案。当然,谷歌也在这里部署了机器学习。

主要是语法检查,虽然在捷克环境下还达不到微软的水平,但在英语国家却取得了非常显着的成功。今年一月,推出了一款新工具,带来了全新一代的文本正确性检查。

据说谷歌不仅能够识别明显的错误,还能理解更复杂的拼写规则和习惯,这些规则和习惯可能因地区而异。基本上,谷歌的算法会自行学习正确的句子,识别其模型和结构,然后可以使用所获得的知识来纠正几乎任何句子。在下图中,您可以看到机器学习算法如何纠正从英语到法语的翻译。