添加话题

Google獨錯譯China breaks promise為「中國守諾」專家：大量假data污染

不少人都會用搜尋引擎 Google 旗下Google Translate 繙譯另一種語言，但網民發現程式出現雙重標準的繙譯錯誤。專頁「前線科技人員」指，周日（17日）網上瘋傳Google Translate 將「China breaks promise（中國破壞承諾）繙譯成「中國信守諾言」，但「US breaks promise（美國破壞承諾）」就會繙譯做「美國違約」。《蘋果》正向Google查詢。

Google Translate原理是放棄文法，純粹用網上大量數據建立模型，而其數據資料庫大部份資料均從公開途徑獲得，專家指，如果某一國家／某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網，大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指，出錯可能是互聯網上撈了錯誤資訊，也不排除有人故意誤導。

「前線科技人員」專頁解釋，幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法，但由於人類語言文法有大量例外用法，令效果一直強差人意。

近十多年來Machine Learning（機器學習）開始普及，研究人員開始循另一個方向解決電腦繙譯問題，嘗試放棄文法，純粹用大量數據去建立模型，事實證明效果比傳統方法優勝。

但專頁質疑，這種做法有其缺點，其中之一是結果受制於數據資料庫（data set）的質素，Google的數據庫大部份資料從公開途徑獲得，「就是說，如果有某一國家／某種語言的媒體，經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網，久而久之，Google Translate 就會中計。」

香港資訊科技商會榮譽會長方保僑嘗試放棄文法，用「China break promise」繙譯，結果顯示「中國違約」，但如果用正確文法breaks，繙譯就變回「中國信守諾言」。

他指機器學習「好像寶寶那樣」要不斷糾正，出錯可能是互聯網上撈了錯誤資訊，也不排除有人故意誤導，他相信Google稍後會更正。

華爾基利訊息安全研究組織機器學習研究人員畢亨特指，Google都是由大量網上媒介，如論壇或文章中收集資料，有可能是某些字詞拼起來，出現大量同一種意思的語言，令繙譯出現以上結果。理論上break是破壞，promise是承諾，最直接兩字合併就是「破壞承諾」；不過如果當break promise前面的詞語是China，3組英文字合併，可能出現大量資料寫成「中國信守諾言」的字面組合，便會出現目前結果；「美國違約」的繙譯道理亦一樣。

他認為問題在於訓練Machine Learning不準確，機器是不會理會意思照單全收，「大量data可能假的，特地污染佢，就會令model出錯」，他認為Google可以清晰列明繙譯準確程度，例如顯示百分比，60%是譯「中國信守諾言」、40%譯「中國違約」，至少讓人所掌握。

Google繙譯並非首次出錯，前年反送中運動其間，有香港網民發現將「so sad to see Hong Kong became China（我很難過看到香港變成中國）」譯成繁體或簡體中文時，「難過」會被繙成「高興」。Google發言人當時向法新社解釋，由於使用自動系統，有時會出現無心錯誤，例如把負面譯成正面字眼。

16

分享 2021-01-18

42 个评论

vJS6uwQy

Q：机器翻译时把意思反过来，是否可能【只】是个程序错误？
A：相当有可能。
自从机器学习应用到翻译软件中之后，我就观察到一些类似的错误。有时候翻译软件会把“是”翻译成“不是”，甚至还会把“10,000”翻译成“100,000”，加了个零。而且原文的“10,000”是用【阿拉伯数字】写的，【不是】“ten thousand”，也【不是】“一万”。
同样基于机器学习语言模型的AI Dungeon游戏也会出现类似的问题，你输入指令让对方给你100元，对方可能给你200元，或者50元。你请人吃苹果，那人可能和你一起吃个梨子。以此类推。
原因似乎是，训练出的AI隐约能意识到某些词经常出现在相同的场合，然后有时AI就会用同样会出现在这个场合的词替换原词。
但是，出现在同样场合的词，可能是近义词，也可能是意义不同的词，甚至可能是反义词。可是AI不管这些，有时候就会把意思不同的词替换过去。于是就出现了把“是”翻译成“不是”，把“10000”翻译成“100000”的情况。
我心想，这不等于是自动制造假消息么？还随口加个零，这内置了郭文贵是吗？

Q：如果只是程序错误，那为什么偏偏是帮中国洗白的，有抹黑的例子吗？
A：我有一次在YouTube看一个关于细胞的科普视频（不记得具体是哪个视频了）。结果YouTube的【自动翻译】字幕把一句话末尾的“power of cells”翻译成了“牢房的强国”。

Q：那所谓大量假数据污染算法的说法，不成立吗？
A：我认为不成立。
但与此同时，我认为实际情况要【更糟糕】。

我认为【不是】有人有组织地，故意给Google提供错误的翻译结果。【而是】Google训练翻译AI时，训练人员尽管努力整理训练数据，提供的训练数据仍然包含了大量错误，导致AI的翻译结果变得很糟糕。
训练理解语言的AI需要大量的训练数据，但中文的训练数据应该严重不够。

通过机器学习的方法训练AI，有一多半的工夫是花在了“准备训练数据”上面。比如训练自动驾驶AI需要大量经过“精心筛选”的真实上路数据，训练图片无损放大的AI需要大量的高分辨率清晰图片，等等。
可是对于中文来说，根本搞不到合适的训练数据。

现在中文世界已经充斥了用暗语进行的交流。比如“中国”一词，就有“我国”“你国”“天朝”“王八朝”“大清”“支国”“汁国”“厉害国”“强国”“墙国”等说法。如果不加修改就提供给AI训练，结果会是一团糟。
如果选择“新闻稿”这类用语规范的内容作为训练资料，【也】存在问题。因为中文媒体在翻译转载外媒报道时，也已经多次出现故意翻译错，故意漏翻译的情况。那么这些错译的报道可能就会不小心被当成训练材料喂给AI，导致训练出的AI也会把内容故意翻译错了。
繁体中文圈子（比如台湾的论坛）虽然没有那么疯狂的审查，但是体量太小。更糟糕的是，因为很多大陆用户在通过使用繁体中文的方法来“规避审查”（繁体敏感词的词库，比简体敏感词词库【小】一些），这就导致繁体中文的训练资料也被污染了。

我非常担心，中文世界再这么折腾下去，就等于是【自绝于】世界文化了，因为永远没法提供足够的训练材料，训练AI理解中文。甚至还会提供大量似是而非的错误训练材料，导致训练出的AI也是错的。
这也是为什么我曾表态支持YouTube封杀“共匪”“五毛”等说法。我到现在还高度怀疑，或许恰恰就是存心捣乱的人，根本不会和人理性讨论问题的人，总发“短贴，非理性贴，无实质内容贴”的人，最爱用“共匪”“五毛”这样的蔑称，不用“中共”“网评员”这样的正常说法，最终才搞得AI把这两个词和“应该删除的垃圾评论”划了等号吧！
在墙外了，好好说人话不行么？到头来，训练出的中文AI也是阴阳怪气的，那还不是所有中文用户的责任！
并且，这也是为什么我在品葱发言时，一直在努力“说人话”，不用任何暗语。我希望自己能贡献点儿正常的训练材料。虽然很可能改变不了什么。

要发言请先登录或注册

Google獨錯譯China breaks promise為「中國守諾」專家：大量假data污染

42 个评论

发起人

状态

Google獨錯譯China breaks promise為「中國守諾」 專家：大量假data污染

42 个评论

发起人

推荐

状态

Google獨錯譯China breaks promise為「中國守諾」專家：大量假data污染