Google獨錯譯China breaks promise為「中國守諾」 專家:大量假data污染
不少人都會用搜尋引擎 Google 旗下Google Translate 繙譯另一種語言,但網民發現程式出現雙重標準的繙譯錯誤。專頁「前線科技人員」指,周日(17日)網上瘋傳Google Translate 將「China breaks promise(中國破壞承諾)繙譯成「中國信守諾言」,但「US breaks promise(美國破壞承諾)」就會繙譯做「美國違約」。《蘋果》正向Google查詢。
Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。
「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。
近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。
但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」
香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。
他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。
華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。
他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。
Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。
「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。
近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。
但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」
香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。
他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。
華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。
他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。
Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
42 个评论
支性開始污染語言,新話時代要到來了,,,
说个打脸的事:
以前听说谷歌不作恶的信条,非常认同它们。
特别是和中共国的一干垃圾公司相比,高下立判云泥之别。
现在我知道了,若把新兴的小众思潮比作蛋,当这些蛋还在孵化,弱不禁风时,谷歌站出来说我们不要作恶,不要因为好欺负就欺负这些蛋,在石头和蛋之间要站蛋;可当蛋里孵出霸王龙,谷歌仍旧对其照顾有加,甚至于霸王龙长大开始四处捉人吃,谷歌还是一如既往。
谷歌对蛋的偏爱,不是因其弱小,而是因其有私——此乃谷歌之蛋也。
资本就是这样,不分对错,只有利益。
而法律与行政的意义,就是要资本在利益面前不能过分,要有所收敛。
这不,当法律与行政失去效用,或者被其所用,资本谷歌养的霸王龙,总算可以开荤了。
以前听说谷歌不作恶的信条,非常认同它们。
特别是和中共国的一干垃圾公司相比,高下立判云泥之别。
现在我知道了,若把新兴的小众思潮比作蛋,当这些蛋还在孵化,弱不禁风时,谷歌站出来说我们不要作恶,不要因为好欺负就欺负这些蛋,在石头和蛋之间要站蛋;可当蛋里孵出霸王龙,谷歌仍旧对其照顾有加,甚至于霸王龙长大开始四处捉人吃,谷歌还是一如既往。
谷歌对蛋的偏爱,不是因其弱小,而是因其有私——此乃谷歌之蛋也。
资本就是这样,不分对错,只有利益。
而法律与行政的意义,就是要资本在利益面前不能过分,要有所收敛。
这不,当法律与行政失去效用,或者被其所用,资本谷歌养的霸王龙,总算可以开荤了。
未能重复文中结果,实测google翻译China breaks promise为中國违反诺言。是后来修改了吗?
上面提到的.....并没有改过来! 同一句话 连法语翻译也被篡改 德语还没有 意大利语也污染了.......
真是牛逼!!
真是牛逼!!
>> 说个打脸的事:以前听说谷歌不作恶的信条,非常认同它们。特别是和中共国的一干垃圾公司相比,高下立...
所以,dragonfly项目,啧啧
未能复现加一, 在用谷歌翻译的时候经常有这种情况, 我见到的都会提出修改建议改回去, 不过现在基本不用谷歌翻译, 技术方面用必应, 其他中文翻译用有道
https://upload.cc/i1/2021/01/18/cIuGEz.png
https://upload.cc/i1/2021/01/18/cIuGEz.png
说实话这还真是数据污染, 欧美it公司的趋势就是使用机器学习代替人工, 虽然准确度确实存在很大问题但是应该是不会改回去了, 反倒是支那it公司的纯人工审核才是异类
>> 墙内直连?!你姓赵?
谷歌翻译什么时候不能墙内直连了?
>> 墙内直连?!你姓赵?
大哥拜托反驳一个人前先去调查一下, 不要搞得和支那人一样没脑子只知道盲从
>> google域名被墙了我只认识translate.google.com不认识API访问方法
你在墙内访问translate.google.com会跳转到translate.google. cn的
>> 说实话这还真是数据污染, 欧美it公司的趋势就是使用机器学习代替人工, 虽然准确度确实存在很大...
这个确实,我对这个问题的观点是很简单的。欧美发达国家是法治国家,你只要把法律的code翻译成计算机的code,就可以审查数据,而如果发现不了隐藏的违法信息,也可以用“尽了法律应尽的义务”辩护,而不被法律制裁。中国是人治国家,或者说吏治国家,违法信息是不可能穷举的,由于标准的任意性,所以单纯计算机审查是不可行的,必须辅以人工审查。为了减少人工审查负担,先用计算机审查,筛选掉一些电脑都能看出违法的信息,之后剩下的信息,再由人工审查。每个审查员都抱着宁杀错不放过的精神来找违法信息。
>> 说个打脸的事:以前听说谷歌不作恶的信条,非常认同它们。特别是和中共国的一干垃圾公司相比,高下立...
连谷歌都作恶了,天下还有不作恶的公司吗?
在google中來自中共的農場新聞,帶有大量偏頗立場的中文資訊,基本上全部都帶有貶低台灣的訊息,youtube之中也有大量中共外宣的影片~基本上中文的訊息已經被完全汙染了,所以前幾天才會看到有蔥友自創了自己的文字~即使中共倒了~這些網路資訊,也不會消失~其實可以把他正視為資訊汙染了~整個悲劇。
并不是所有 刚刚看了看 法意还没有改过来 我不会贴图 大家可以自己看看
La Chine brise la promesse.
La Cina rompe il promettere
La Chine brise la promesse.
La Cina rompe il promettere
这种情况早就有了啊。选前就有人发现,如果输入
注意,Lost和Election,都是首字大写,这个会被翻译成:拜登竞选连任。这个BUG直到现在也没改正。
另外如果输入
大家也可以看看翻译的结果是什么,这个总不是大外宣干的了吧,哈哈。
Biden Lost Election
注意,Lost和Election,都是首字大写,这个会被翻译成:拜登竞选连任。这个BUG直到现在也没改正。
另外如果输入
China will certainly live up to your trust
大家也可以看看翻译的结果是什么,这个总不是大外宣干的了吧,哈哈。
在翻译结果上有一个“提出修改意见”的功能,提交修改之后新译文就会占有一定的高权重。
这样如果你派几个人一天到晚不停换IP提交错误翻译的话,错误的译文就会自然有更高权重。这已经不是什么秘密了。
另外推荐一个翻译网站,DeepLhttps://www.deepl.com/en/translator,这个网站的AI比谷歌翻译更加通顺,错误更少。
这样如果你派几个人一天到晚不停换IP提交错误翻译的话,错误的译文就会自然有更高权重。这已经不是什么秘密了。
另外推荐一个翻译网站,DeepLhttps://www.deepl.com/en/translator,这个网站的AI比谷歌翻译更加通顺,错误更少。
Q:机器翻译时把意思反过来,是否可能【只】是个程序错误?
A:相当有可能。
自从机器学习应用到翻译软件中之后,我就观察到一些类似的错误。有时候翻译软件会把“是”翻译成“不是”,甚至还会把“10,000”翻译成“100,000”,加了个零。而且原文的“10,000”是用【阿拉伯数字】写的,【不是】“ten thousand”,也【不是】“一万”。
同样基于机器学习语言模型的AI Dungeon游戏也会出现类似的问题,你输入指令让对方给你100元,对方可能给你200元,或者50元。你请人吃苹果,那人可能和你一起吃个梨子。以此类推。
原因似乎是,训练出的AI隐约能意识到某些词经常出现在相同的场合,然后有时AI就会用同样会出现在这个场合的词替换原词。
但是,出现在同样场合的词,可能是近义词,也可能是意义不同的词,甚至可能是反义词。可是AI不管这些,有时候就会把意思不同的词替换过去。于是就出现了把“是”翻译成“不是”,把“10000”翻译成“100000”的情况。
我心想,这不等于是自动制造假消息么?还随口加个零,这内置了郭文贵是吗?
Q:如果只是程序错误,那为什么偏偏是帮中国洗白的,有抹黑的例子吗?
A:我有一次在YouTube看一个关于细胞的科普视频(不记得具体是哪个视频了)。结果YouTube的【自动翻译】字幕把一句话末尾的“power of cells”翻译成了“牢房的强国”。
Q:那所谓大量假数据污染算法的说法,不成立吗?
A:我认为不成立。
但与此同时,我认为实际情况要【更糟糕】。
我认为【不是】有人有组织地,故意给Google提供错误的翻译结果。【而是】Google训练翻译AI时,训练人员尽管努力整理训练数据,提供的训练数据仍然包含了大量错误,导致AI的翻译结果变得很糟糕。
训练理解语言的AI需要大量的训练数据,但中文的训练数据应该严重不够。
通过机器学习的方法训练AI,有一多半的工夫是花在了“准备训练数据”上面。比如训练自动驾驶AI需要大量经过“精心筛选”的真实上路数据,训练图片无损放大的AI需要大量的高分辨率清晰图片,等等。
可是对于中文来说,根本搞不到合适的训练数据。
现在中文世界已经充斥了用暗语进行的交流。比如“中国”一词,就有“我国”“你国”“天朝”“王八朝”“大清”“支国”“汁国”“厉害国”“强国”“墙国”等说法。如果不加修改就提供给AI训练,结果会是一团糟。
如果选择“新闻稿”这类用语规范的内容作为训练资料,【也】存在问题。因为中文媒体在翻译转载外媒报道时,也已经多次出现故意翻译错,故意漏翻译的情况。那么这些错译的报道可能就会不小心被当成训练材料喂给AI,导致训练出的AI也会把内容故意翻译错了。
繁体中文圈子(比如台湾的论坛)虽然没有那么疯狂的审查,但是体量太小。更糟糕的是,因为很多大陆用户在通过使用繁体中文的方法来“规避审查”(繁体敏感词的词库,比简体敏感词词库【小】一些),这就导致繁体中文的训练资料也被污染了。
我非常担心,中文世界再这么折腾下去,就等于是【自绝于】世界文化了,因为永远没法提供足够的训练材料,训练AI理解中文。甚至还会提供大量似是而非的错误训练材料,导致训练出的AI也是错的。
这也是为什么我曾表态支持YouTube封杀“共匪”“五毛”等说法。我到现在还高度怀疑,或许恰恰就是存心捣乱的人,根本不会和人理性讨论问题的人,总发“短贴,非理性贴,无实质内容贴”的人,最爱用“共匪”“五毛”这样的蔑称,不用“中共”“网评员”这样的正常说法,最终才搞得AI把这两个词和“应该删除的垃圾评论”划了等号吧!
在墙外了,好好说人话不行么?到头来,训练出的中文AI也是阴阳怪气的,那还不是所有中文用户的责任!
并且,这也是为什么我在品葱发言时,一直在努力“说人话”,不用任何暗语。我希望自己能贡献点儿正常的训练材料。虽然很可能改变不了什么。
A:相当有可能。
自从机器学习应用到翻译软件中之后,我就观察到一些类似的错误。有时候翻译软件会把“是”翻译成“不是”,甚至还会把“10,000”翻译成“100,000”,加了个零。而且原文的“10,000”是用【阿拉伯数字】写的,【不是】“ten thousand”,也【不是】“一万”。
同样基于机器学习语言模型的AI Dungeon游戏也会出现类似的问题,你输入指令让对方给你100元,对方可能给你200元,或者50元。你请人吃苹果,那人可能和你一起吃个梨子。以此类推。
原因似乎是,训练出的AI隐约能意识到某些词经常出现在相同的场合,然后有时AI就会用同样会出现在这个场合的词替换原词。
但是,出现在同样场合的词,可能是近义词,也可能是意义不同的词,甚至可能是反义词。可是AI不管这些,有时候就会把意思不同的词替换过去。于是就出现了把“是”翻译成“不是”,把“10000”翻译成“100000”的情况。
我心想,这不等于是自动制造假消息么?还随口加个零,这内置了郭文贵是吗?
Q:如果只是程序错误,那为什么偏偏是帮中国洗白的,有抹黑的例子吗?
A:我有一次在YouTube看一个关于细胞的科普视频(不记得具体是哪个视频了)。结果YouTube的【自动翻译】字幕把一句话末尾的“power of cells”翻译成了“牢房的强国”。
Q:那所谓大量假数据污染算法的说法,不成立吗?
A:我认为不成立。
但与此同时,我认为实际情况要【更糟糕】。
我认为【不是】有人有组织地,故意给Google提供错误的翻译结果。【而是】Google训练翻译AI时,训练人员尽管努力整理训练数据,提供的训练数据仍然包含了大量错误,导致AI的翻译结果变得很糟糕。
训练理解语言的AI需要大量的训练数据,但中文的训练数据应该严重不够。
通过机器学习的方法训练AI,有一多半的工夫是花在了“准备训练数据”上面。比如训练自动驾驶AI需要大量经过“精心筛选”的真实上路数据,训练图片无损放大的AI需要大量的高分辨率清晰图片,等等。
可是对于中文来说,根本搞不到合适的训练数据。
现在中文世界已经充斥了用暗语进行的交流。比如“中国”一词,就有“我国”“你国”“天朝”“王八朝”“大清”“支国”“汁国”“厉害国”“强国”“墙国”等说法。如果不加修改就提供给AI训练,结果会是一团糟。
如果选择“新闻稿”这类用语规范的内容作为训练资料,【也】存在问题。因为中文媒体在翻译转载外媒报道时,也已经多次出现故意翻译错,故意漏翻译的情况。那么这些错译的报道可能就会不小心被当成训练材料喂给AI,导致训练出的AI也会把内容故意翻译错了。
繁体中文圈子(比如台湾的论坛)虽然没有那么疯狂的审查,但是体量太小。更糟糕的是,因为很多大陆用户在通过使用繁体中文的方法来“规避审查”(繁体敏感词的词库,比简体敏感词词库【小】一些),这就导致繁体中文的训练资料也被污染了。
我非常担心,中文世界再这么折腾下去,就等于是【自绝于】世界文化了,因为永远没法提供足够的训练材料,训练AI理解中文。甚至还会提供大量似是而非的错误训练材料,导致训练出的AI也是错的。
这也是为什么我曾表态支持YouTube封杀“共匪”“五毛”等说法。我到现在还高度怀疑,或许恰恰就是存心捣乱的人,根本不会和人理性讨论问题的人,总发“短贴,非理性贴,无实质内容贴”的人,最爱用“共匪”“五毛”这样的蔑称,不用“中共”“网评员”这样的正常说法,最终才搞得AI把这两个词和“应该删除的垃圾评论”划了等号吧!
在墙外了,好好说人话不行么?到头来,训练出的中文AI也是阴阳怪气的,那还不是所有中文用户的责任!
并且,这也是为什么我在品葱发言时,一直在努力“说人话”,不用任何暗语。我希望自己能贡献点儿正常的训练材料。虽然很可能改变不了什么。
Google唯一一次翻译准确的是把某人翻译成粪坑
前几个月一篇分析武汉病毒的文章google机翻之后出现“美国病毒研究所泄露”,但是文章通篇没出现America或者USA之类的词
话说这种网络污染算是超限战么
话说这种网络污染算是超限战么
其实Google翻译是可以改动的。我以前曾经用过,觉得翻译不准确,就给了个建议。下回再遇到,就发觉给出了我建议的翻译。
這個事不該拿機譯說事,理由如下:
- 谷歌現有翻譯工具此前很多年均是非純機器翻譯,也就是說,它並不是只有這類人工智能的機譯爲庫的,它不可能完全一下子甩開過去的參考庫而直接用網上抓來的人工參考譯文當基礎庫
- 如果是智能翻譯,那麼這個東西在目前不成熟的情況下,谷歌的技能主管部門不可能沒人想到會有什麼缺陷,從而不增加人工審查和機器輔助審查。不會有人相信谷歌第一天把人工智能無人駕駛汽車造出來之後,就讓它自己直接開上美國的城市及高速公路,而是車裏會坐真人,且後面還會有後勤汽車跟着處理可能發生的事故
- 在有不止一兩人指出谷歌翻譯中的這些錯誤之後,它並未馬上修正,直到這個事件變大,有了公衆影響
>> 说实话这还真是数据污染, 欧美it公司的趋势就是使用机器学习代替人工, 虽然准确度确实存在很大...
人工審核成本太高了,只有支那需要維穩且網絡巨頭公司都被政府操控的情況下才會有超大規模人工審核
>> 谷歌不作恶的时候它还小,大了还是要作恶的。不过我就不知道谷歌和苹果哪个作恶更多了。
作恶哪个更多不好说,但谷歌肯定是造成最多恶的,谷歌搜索引擎的影响力太大。就像这次 parler 事件,要是谷歌搜索的结果都是批评 parler 极右的,肯定要比苹果下架 parler 对不知情的用户影响要大。
苹果不能直接操控言论,不能在应用商店的首页挂张图说 parler 是法西斯,谷歌就可以操控搜索结果,让你看到的都是说 parler 是法西斯的网页。
https://imgur.com/f0wD5YT
看來google AI真的很聰明
不知道為什麼圖不能顯示
把這串貼去google翻譯看看
China break the promise
Russia break the promise
Singapore break the promise
United States break the promise
United Kingdom break the promise
Japan break the promise
看來google AI真的很聰明
不知道為什麼圖不能顯示
把這串貼去google翻譯看看
China break the promise
Russia break the promise
Singapore break the promise
United States break the promise
United Kingdom break the promise
Japan break the promise
>> 看來google AI真的很聰明不知道為什麼圖不能顯示把這串貼去google翻譯看看China...
要用这一串,效果更好
China break the promise
Russia break the promise
Singapore break the promise
United States break the promise
United Kingdom break the promise
Japan break the promise
Nazi Germany breaks the promise
Japanese Empire breaks the promise
Soviet Empire breaks the promise
>> 作恶哪个更多不好说,但谷歌肯定是造成最多恶的,谷歌搜索引擎的影响力太大。就像这次 parler...
唯一办法是自己告别Google,我已经把浏览器、搜索、邮箱、常用账号彻底和Google分离了。
现在已经约一周,做正经事还真没什么「不便」的感觉。
google的解释的意思核心就是谎言说一万遍就是真相了
呵呵呵。
呵呵呵。
实测 china breaks the promise 翻译成 中国信守诺言
我没什么想骂的了。。。。。。
再说了,谷歌翻译日语真的是屎,完全不知所云。
是时候考虑换一个翻译网站了,大家有没有好的推荐?最好是日语翻译比较好一点的。
我没什么想骂的了。。。。。。
再说了,谷歌翻译日语真的是屎,完全不知所云。
是时候考虑换一个翻译网站了,大家有没有好的推荐?最好是日语翻译比较好一点的。


