Google獨錯譯China breaks promise為「中國守諾」 專家:大量假data污染
不少人都會用搜尋引擎 Google 旗下Google Translate 繙譯另一種語言,但網民發現程式出現雙重標準的繙譯錯誤。專頁「前線科技人員」指,周日(17日)網上瘋傳Google Translate 將「China breaks promise(中國破壞承諾)繙譯成「中國信守諾言」,但「US breaks promise(美國破壞承諾)」就會繙譯做「美國違約」。《蘋果》正向Google查詢。
Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。
「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。
近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。
但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」
香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。
他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。
華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。
他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。
Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。
「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。
近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。
但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」
香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。
他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。
華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。
他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。
Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
42 个评论
说个打脸的事:
以前听说谷歌不作恶的信条,非常认同它们。
特别是和中共国的一干垃圾公司相比,高下立判云泥之别。
现在我知道了,若把新兴的小众思潮比作蛋,当这些蛋还在孵化,弱不禁风时,谷歌站出来说我们不要作恶,不要因为好欺负就欺负这些蛋,在石头和蛋之间要站蛋;可当蛋里孵出霸王龙,谷歌仍旧对其照顾有加,甚至于霸王龙长大开始四处捉人吃,谷歌还是一如既往。
谷歌对蛋的偏爱,不是因其弱小,而是因其有私——此乃谷歌之蛋也。
资本就是这样,不分对错,只有利益。
而法律与行政的意义,就是要资本在利益面前不能过分,要有所收敛。
这不,当法律与行政失去效用,或者被其所用,资本谷歌养的霸王龙,总算可以开荤了。
以前听说谷歌不作恶的信条,非常认同它们。
特别是和中共国的一干垃圾公司相比,高下立判云泥之别。
现在我知道了,若把新兴的小众思潮比作蛋,当这些蛋还在孵化,弱不禁风时,谷歌站出来说我们不要作恶,不要因为好欺负就欺负这些蛋,在石头和蛋之间要站蛋;可当蛋里孵出霸王龙,谷歌仍旧对其照顾有加,甚至于霸王龙长大开始四处捉人吃,谷歌还是一如既往。
谷歌对蛋的偏爱,不是因其弱小,而是因其有私——此乃谷歌之蛋也。
资本就是这样,不分对错,只有利益。
而法律与行政的意义,就是要资本在利益面前不能过分,要有所收敛。
这不,当法律与行政失去效用,或者被其所用,资本谷歌养的霸王龙,总算可以开荤了。