Google獨錯譯China breaks promise為「中國守諾」 專家:大量假data污染

不少人都會用搜尋引擎 Google 旗下Google Translate 繙譯另一種語言,但網民發現程式出現雙重標準的繙譯錯誤。專頁「前線科技人員」指,周日(17日)網上瘋傳Google Translate 將「China breaks promise(中國破壞承諾)繙譯成「中國信守諾言」,但「US breaks promise(美國破壞承諾)」就會繙譯做「美國違約」。《蘋果》正向Google查詢。

Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。

「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。

近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。

但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」

香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。

他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。

華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。

他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。

Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
16
分享 2021-01-18

42 个评论

Q:机器翻译时把意思反过来,是否可能【只】是个程序错误?
A:相当有可能。
自从机器学习应用到翻译软件中之后,我就观察到一些类似的错误。有时候翻译软件会把“是”翻译成“不是”,甚至还会把“10,000”翻译成“100,000”,加了个零。而且原文的“10,000”是用【阿拉伯数字】写的,【不是】“ten thousand”,也【不是】“一万”。
同样基于机器学习语言模型的AI Dungeon游戏也会出现类似的问题,你输入指令让对方给你100元,对方可能给你200元,或者50元。你请人吃苹果,那人可能和你一起吃个梨子。以此类推。
原因似乎是,训练出的AI隐约能意识到某些词经常出现在相同的场合,然后有时AI就会用同样会出现在这个场合的词替换原词。
但是,出现在同样场合的词,可能是近义词,也可能是意义不同的词,甚至可能是反义词。可是AI不管这些,有时候就会把意思不同的词替换过去。于是就出现了把“是”翻译成“不是”,把“10000”翻译成“100000”的情况。
我心想,这不等于是自动制造假消息么?还随口加个零,这内置了郭文贵是吗?

Q:如果只是程序错误,那为什么偏偏是帮中国洗白的,有抹黑的例子吗?
A:我有一次在YouTube看一个关于细胞的科普视频(不记得具体是哪个视频了)。结果YouTube的【自动翻译】字幕把一句话末尾的“power of cells”翻译成了“牢房的强国”。

Q:那所谓大量假数据污染算法的说法,不成立吗?
A:我认为不成立。
但与此同时,我认为实际情况要【更糟糕】。

我认为【不是】有人有组织地,故意给Google提供错误的翻译结果。【而是】Google训练翻译AI时,训练人员尽管努力整理训练数据,提供的训练数据仍然包含了大量错误,导致AI的翻译结果变得很糟糕。
训练理解语言的AI需要大量的训练数据,但中文的训练数据应该严重不够。

通过机器学习的方法训练AI,有一多半的工夫是花在了“准备训练数据”上面。比如训练自动驾驶AI需要大量经过“精心筛选”的真实上路数据,训练图片无损放大的AI需要大量的高分辨率清晰图片,等等。
可是对于中文来说,根本搞不到合适的训练数据。

现在中文世界已经充斥了用暗语进行的交流。比如“中国”一词,就有“我国”“你国”“天朝”“王八朝”“大清”“支国”“汁国”“厉害国”“强国”“墙国”等说法。如果不加修改就提供给AI训练,结果会是一团糟。
如果选择“新闻稿”这类用语规范的内容作为训练资料,【也】存在问题。因为中文媒体在翻译转载外媒报道时,也已经多次出现故意翻译错,故意漏翻译的情况。那么这些错译的报道可能就会不小心被当成训练材料喂给AI,导致训练出的AI也会把内容故意翻译错了。
繁体中文圈子(比如台湾的论坛)虽然没有那么疯狂的审查,但是体量太小。更糟糕的是,因为很多大陆用户在通过使用繁体中文的方法来“规避审查”(繁体敏感词的词库,比简体敏感词词库【小】一些),这就导致繁体中文的训练资料也被污染了。

我非常担心,中文世界再这么折腾下去,就等于是【自绝于】世界文化了,因为永远没法提供足够的训练材料,训练AI理解中文。甚至还会提供大量似是而非的错误训练材料,导致训练出的AI也是错的。
这也是为什么我曾表态支持YouTube封杀“共匪”“五毛”等说法。我到现在还高度怀疑,或许恰恰就是存心捣乱的人,根本不会和人理性讨论问题的人,总发“短贴,非理性贴,无实质内容贴”的人,最爱用“共匪”“五毛”这样的蔑称,不用“中共”“网评员”这样的正常说法,最终才搞得AI把这两个词和“应该删除的垃圾评论”划了等号吧!
在墙外了,好好说人话不行么?到头来,训练出的中文AI也是阴阳怪气的,那还不是所有中文用户的责任!
并且,这也是为什么我在品葱发言时,一直在努力“说人话”,不用任何暗语。我希望自己能贡献点儿正常的训练材料。虽然很可能改变不了什么。

要发言请先登录注册

要发言请先登录注册