QQ在线咨询
客服热线1
021-52688021
客服热线2
021-52688022
您的位置:首页 > 中文

维基百科的谷歌翻译问题

维基百科成立的目的是让世界各地的知识免费提供 - 但现在,它主要是用英语提供。英语维基百科是迄今为止最大的版本,有550万篇文章,301个版本中只有15个有超过一百万篇。这些文章的质量可能会有很大差异,重要内容往往完全缺失。二百零六个版本缺少一篇关于幸福情绪状态的文章,只有不到一半的文章缺少一篇关于智人的文章。


这似乎是机器翻译工具的完美问题,并且在1月份,谷歌与维基媒体基金会合作解决它,将谷歌翻译纳入基金会自己的内容翻译工具,该工具使用开源翻译软件。但对于使用非英语维基百科版本的编辑而言,内容翻译工具更多的是一种诅咒而不是祝福,更新了关于维基百科是否应该从事机器翻译业务的争论。


“人们将谷歌翻译为无法实现......显然不是。”

内容翻译工具作为测试版功能提供,可让编辑人员根据其他版本的自动翻译生成新文章的预览。如果使用得当,该工具可以为编辑人员构建人员不足的版本节省宝贵的时间 - 但是当它出错时,结果可能是灾难性的。一位全球管理员指出从英语到葡萄牙语的翻译特别荒谬。什么是英文版的“乡村泵”在通过机器翻译成葡萄牙语时变成了“炸弹村”。


“人们认为谷歌翻译是完美的,”管理员说道,他要求用他们的维基百科用户名称佛蒙特州提及。 “显然不是。它并不意味着取代了解语言。“


那些伪劣的机器翻译已成为一个问题,有些版本已经创建了特殊的管理规则,只是为了盖章。英语维基百科社区选择具有临时“快速删除”标准,仅允许管理员删除“2016年7月27日之前由内容翻译工具创建的任何页面”,只要页面历史记录中不存在不是机器的版本-translated。这种“特殊情况”的名称迅速删除标准是“X2。由内容翻译工具创建的页面。“


“应该讨论一项改善机器学习的社区广泛战略”

如果你近年来看到人工智能与人工翻译达到“平等”的头条新闻,这可能会令人惊讶。但这些故事通常指的是机器翻译能力的狭隘,专业测试,当软件实际部署在野外时,人工智能的局限性变得清晰。正如印第安纳大学布鲁明顿分校认知教授道格拉斯霍夫斯塔特(Douglas Hofstadter)在一篇有关该主题的有影响力的文章中所阐述的那样,人工智能翻译很浅薄。它产生的文本具有表面层次的流畅性,但通常会忽略单词和句子的深层含义。人工智能系统通过研究大量训练数据中的统计模式来学习如何翻译,但这意味着他们对语言的细微差别视而不见,这些语言的使用频率较低,缺乏人工翻译的常识。


维基百科编辑的结果是一个主要的技能差距。他们的机器翻译通常需要那些翻译的密切监督,他们自己必须很好地理解他们正在翻译的两种语言。对于已经被志愿者束缚的较小的维基百科版本来说,这是一个真正的问题。


Guilherme Morandini是葡萄牙语维基百科的管理员,经常看到用户在内容翻译工具中打开文章,并立即发布到另一种语言版本而不进行任何审核。根据他的经验,结果是伪劣的翻译或彻头彻尾的废话,这是该版本作为信息来源的可信度的灾难。 Morageini在The Verge的指导下,将这篇关于JusufNurkić的文章作为一个例子,将其机器翻译成葡萄牙语。第一行,“......éumBósnioprofissionalque atualmente joga ...”直接翻译为“...是一个目前正在播放的专业波斯尼亚人”,而不是英文版“......是波斯尼亚专业人士篮球运动员。”


“机器翻译永远不会成为WIKIPEDIA上的文章的一种可行方式”

印度尼西亚维基百科社区甚至正式要求维基媒体基金会从该版本中删除该工具。维基媒体基金会似乎不愿意在此基础上这样做,并且在过去已经否定了社区的共识。私下里,人们对The Verge表示担心,人们担心这可能会成为2014年媒体浏览器大战的重播,这会引起基金会与其监管的社区主导版本之间的巨大不信任。


JoãoAlexandrePeschanski是巴西FaculdadeCásperLíbero的新闻学教授,他教授Wikiversity课程,是当前机器翻译系统的另一个批评者。 Peschanski说:“应该讨论一个改善机器学习的社区范围的战略,因为我们可能会通过我所说的相当艰巨的翻译努力来削弱效率。”翻译工具“很关键”,而且在Peschanski的经验中他们“公平地”工作他说,“面临的主要问题是文章中使用的模板不一致。理想情况下,这些模板包含许多文章或页面可能需要的重复材料,通常在各种语言版本之间,使语言更容易自动解析。


Peschanski将翻译视为重用和适应的活动,语言版本之间的重用取决于内容是否存在于另一个网站上。但适应意味着在继续之前将“不同的文化,语言特定的背景”带入翻译。更广泛的解决方案是制定某种项目范围的政策,禁止机器翻译,无需人工监督。


The Verge采访本文的大多数用户倾向于将手动翻译与机器翻译结合起来,后者仅用于查找特定单词。所有受访者都同意佛蒙特州的声明,即“机器翻译永远不会成为在维基百科上发表文章的可行方式,仅仅因为它无法理解不能在语言之间翻译的复杂人类短语”,但大多数人都认为它确实有其用途。


面对这些障碍,与英语维基百科相比,较小的项目可能总是具有较低的质量标准。质量是相对的,未完成或写得不好的文章不可能完全消失。但这种差异伴随着真正的成本。 “在巴西这里,”莫兰迪尼说,“维基百科仍然被认为是不值得信赖的”,这一声誉在英国文章的翻译中毫无帮助。佛蒙特州和莫兰迪尼都同意,在纯机器翻译的情况下,相关文章最好不要删除。在很多情况下,他们只是“太难以保持”。


James Vincent为本文提供了额外的报道。


披露:Kyle Wilson是英语维基百科的管理员和全球用户重命名者。他没有从维基媒体基金会收到付款,也没有参与付费编辑,广泛解释。