Google獨錯譯China breaks promise為「中國守諾」 專家:大量假data污染
不少人都會用搜尋引擎 Google 旗下Google Translate 繙譯另一種語言,但網民發現程式出現雙重標準的繙譯錯誤。專頁「前線科技人員」指,周日(17日)網上瘋傳Google Translate 將「China breaks promise(中國破壞承諾)繙譯成「中國信守諾言」,但「US breaks promise(美國破壞承諾)」就會繙譯做「美國違約」。《蘋果》正向Google查詢。
Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。
「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。
近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。
但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」
香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。
他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。
華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。
他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。
Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
Google Translate原理是放棄文法,純粹用網上大量數據建立模型,而其數據資料庫大部份資料均從公開途徑獲得,專家指,如果某一國家/某種語言媒體經常將 China breaks promise 繙譯做「中國信守諾言」並放上網,大量假data污染AI令Google Translate中伏。香港資訊科技商會榮譽會長方保僑亦指,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導。
「前線科技人員」專頁解釋,幾十年前舊式電腦繙譯主要方法是教電腦程式辨認不同文法,但由於人類語言文法有大量例外用法,令效果一直強差人意。
近十多年來Machine Learning(機器學習)開始普及,研究人員開始循另一個方向解決電腦繙譯問題,嘗試放棄文法,純粹用大量數據去建立模型,事實證明效果比傳統方法優勝。
但專頁質疑,這種做法有其缺點,其中之一是結果受制於數據資料庫(data set)的質素,Google的數據庫大部份資料從公開途徑獲得,「就是說,如果有某一國家/某種語言的媒體,經常都將 China breaks promise 繙譯做『中國信守諾言』並放上網,久而久之,Google Translate 就會中計。」
香港資訊科技商會榮譽會長方保僑嘗試放棄文法,用「China break promise」繙譯,結果顯示「中國違約」,但如果用正確文法breaks,繙譯就變回「中國信守諾言」。
他指機器學習「好像寶寶那樣」要不斷糾正,出錯可能是互聯網上撈了錯誤資訊,也不排除有人故意誤導,他相信Google稍後會更正。
華爾基利訊息安全研究組織機器學習研究人員畢亨特指,Google都是由大量網上媒介,如論壇或文章中收集資料,有可能是某些字詞拼起來,出現大量同一種意思的語言,令繙譯出現以上結果。理論上break是破壞,promise是承諾,最直接兩字合併就是「破壞承諾」;不過如果當break promise前面的詞語是China,3組英文字合併,可能出現大量資料寫成「中國信守諾言」的字面組合,便會出現目前結果;「美國違約」的繙譯道理亦一樣。
他認為問題在於訓練Machine Learning不準確,機器是不會理會意思照單全收,「大量data可能假的,特地污染佢,就會令model出錯」,他認為Google可以清晰列明繙譯準確程度,例如顯示百分比,60%是譯「中國信守諾言」、40%譯「中國違約」,至少讓人所掌握。
Google繙譯並非首次出錯,前年反送中運動其間,有香港網民發現將「so sad to see Hong Kong became China(我很難過看到香港變成中國)」譯成繁體或簡體中文時,「難過」會被繙成「高興」。Google發言人當時向法新社解釋,由於使用自動系統,有時會出現無心錯誤,例如把負面譯成正面字眼。
42 个评论
https://imgur.com/f0wD5YT
看來google AI真的很聰明
不知道為什麼圖不能顯示
把這串貼去google翻譯看看
China break the promise
Russia break the promise
Singapore break the promise
United States break the promise
United Kingdom break the promise
Japan break the promise
看來google AI真的很聰明
不知道為什麼圖不能顯示
把這串貼去google翻譯看看
China break the promise
Russia break the promise
Singapore break the promise
United States break the promise
United Kingdom break the promise
Japan break the promise