總覽翻譯事故和翻譯故事,不難發現,所謂「翻譯烏龍」出包的不僅是Google平台,還有不少網民立場先行的思維。(湯森路透)
Google翻譯(Google Translate)是不少網友常用翻譯工具,其支援超過100種語言,每日翻譯量超過1000億個單字,可讓用戶輕鬆翻譯文字、手寫字跡、照片文字等內容,消弭語言隔閡。不過,機器翻譯畢竟不比人工,錯譯情況不時發生,本次「China breaks promise」翻譯成「中國信守諾言」便是其中一例,備受關注。
本月17日,有網民發現,Google Translate中輸入「China breaks promise」,得到的中譯是「中國信守諾言」,將短語breaks promise含義弄反,但主語由China替換為US時,則會正確譯成「違約」,網民懷疑谷歌翻譯持雙重標準。另有報導回溯了與之類似的幾條令人不安的案例:2019年9月14日,香港返修例期間,輸入「so sad to see Hong Kong becoming China」,Google翻譯會將「sad」錯譯成「高興」,短句錯譯為「很高興看到香港成為中國」;2020年5月21日,「President Tsai Ing Wen」被翻譯成「蔡英文主席」;2020年10月23日,美國大選期間,Google翻譯將「Joe Biden Just Lost Election」翻譯成「拜登當選」,將名字替換成美國總統川普則翻譯正確;2020年12月14日,Facebook的確把「MOST CORRUPT ELECTION IN U.S. HISTORY!」譯成「美國歷史上最正確選舉」。不少網民看到以上案例,不禁悲呼,「谷歌被中國/民主黨收買了」,還有網民更進一步「推導出」是中共網軍所為,指鹿為馬誤導用戶。
其實,這些觀點要麼是不知其所以然,要麼就是陰謀論,以上所舉案例都有特定傾向性,依靠偏頗或不充分的證據得出的結論自然也不可靠,相應舉出異質案例,這些結論就站不住腳:
2020年1月18日,習近平訪問緬甸次日與翁山蘇姬會談,翁山蘇姬辦公室的官方粉專就會見發表貼文,Facebook翻譯年糕將緬甸語的中習近平的名字被譯作英文「Shithole」;
2020年1月11日,台灣大選期間,「國共一家親」的英文被譯為「KMT Family」;
2019年6月24日,Siri翻譯將「Google真牛逼」英文譯作「Google is awesome」,主語替換為華為則變為「Huawei is a real bitch」;
2006年12月21日,輸入英文「I thought this was shame」,Google翻譯中文被譯為「我認為這是中國的恥辱」,一度被中國網民指為辱華號召杯葛。
此外,前段香港案例「so sad to see Hong Kong becoming China」賓語替換為Korea/British,系統分別翻譯出「很高興看到香港成為韓國」及「很高興看到香港成為英國」的中文字句;中國案例若輸入相反的「I thought this was glory」,也對應的被翻譯成「我認為這是中國的榮耀」。
兩組政見相異的錯譯對照,立場說不攻自破,Google/蘋果/臉書既非「通共/媚共」,也非「辱華/反共」,相異的標籤和定性是用戶政見的投射,技術問題被錯解為政治立場問題。
要弄懂翻譯烏龍,先要明白機器翻譯的運作原理。早年機器翻譯基於短語,即將輸入句子分解,然後對其進行獨立翻譯,最後合成。舊式方式會大規模出現單字對但整句錯的離譜情況,如將「小心滑倒」譯成「Slip carefully」。取而代之的是人工智慧以及演算法驅動的神經網路,線上翻譯工具需要讀取大量的雙語網頁內容,將其作為資料庫,並分析符號間的對應關係,給出翻譯結果前會經過複雜的運算,這個過程並非由人工干預,和人類翻譯不同,雖然由人工智慧驅動,但機器翻譯和人腦的智慧相仍比相距甚遠,機器無法真正理解語義,所作的翻譯其實是符號對應關係的「解密」過程。
基於機器翻譯的運作原理,翻譯烏龍是某一運算環節發生發生偏誤的結果,演算法、訓練資料、輸入內容本身差之毫厘,輸出結果就可能謬以千里。誤譯個例可能來源於演算法的盲點,也可能來源於資料庫中目標詞語偶然出現的關聯性,但無論如何,首先可以確定的是,誤譯並非Google故意為之。
有人排除Google故意為之的論調,認為平台本身也是受害者。Google受害論衍生出兩種猜測。
第一種,有人別有用心透過Google翻譯中「提供建議」功能灌入錯誤數據,潛移默化地改變翻譯質量。的確,Google翻譯為志願者提供了眾包功能,成為其「翻譯社區」的一部分來提高翻譯的準確性。但是,此功能並非沒有審核機制對用戶反饋全然收錄,建議並非直接速效地成為對所有用戶顯示的譯文,而是需要其他翻譯貢獻者檢視正誤並投票,帶有一定數量正確票的翻譯才可能顯示。
第二種,特定語料被系統自動採用。Google翻譯會從整個網路中獲取信息,系統恰好自動採用了特意投餵的特定語料,這種機率微乎其微,在弱勢語言——如毛利語、夏威夷語、索馬里語的翻譯中有可能出現,因為網路中如此小眾的語種,其語料遠小於英語或中文等強勢語言。例如,2018年7月23日,從索馬里語或毛利語翻譯成英文,意味不明的內容會被機器翻譯成宗教般的文本,詭譎的譯文和聖經舊約中的特定段落有些許相似之處,有學者推測Google有可能使用諸如聖經之類宗教文本的譯本訓練語言模型,意外生成宗教色彩的譯文。
Google翻譯官方並不披露訓練資料的種類和權重,以上尚屬學者針對小眾語種特例和翻譯結果本身的語言特質合理猜測 (而非本次很多網民相信的陰謀論),強勢的英文和中文不適用於這一推斷角度。
針對第二種情況,有網民可能聯想到搜尋引擎中的Google炸彈(Google Bombing) ,即將網站、文字、圖片與本來無關的特定的關鍵詞聯繫在一起,讓預設內容搜尋排名更加靠前的網路行動。前總統布希、川普都曾是Google炸彈的受害者,在Google搜索「failure」,布希的個人介紹頁一度躥升到首位,Google圖片上搜尋「idiot」,會發現第一頁搜尋結果一度滿是川普。但是,機器翻譯比搜尋引擎運作的複雜程度高得多,線上翻譯工具對網路公開資料並非拿來即用,也並非單純是依據關鍵詞頻率,而是需要經過一系列複雜的資料收集、對應才完成翻譯流程;況且,Google也在不斷調整頁面的排序算法,抑制Google炸彈等惡意使用現象。
至於中共網軍,不管是控制敘事(例如形塑新冠疫情「正確的集體記憶」)還是特定目標工具(例如干預外國投票行為),作為集體行為無不具有明確的目的性和計劃性,在流程複雜如斯的情況下,特意投餵的特定語料根本無法確定能夠變更翻譯結果,中國網軍行動確實可能不計成本、不擇手段,但姜太公釣魚式的影響路徑高度不可控、付出回報高度不確定的情形不太符合事實和常理。
另外還需要指出的一點,Google翻譯並未隨著Google搜尋、Gmail等退出中國,2010年至今持續在translate.google.cn上提供服務,2017年9月,Google Translate App更新至5.8版,翻譯服務更從網頁版擴展到了App端。所以,錯譯也非翻譯平台遭到內外意誤導或滲透所致。
演算法如同黑盒子般的運作方式,無法得知本次錯譯具體「是」如何發生的,但透過一般的運作機制和常識,可以排除哪些因素「不是」錯譯之因。
總覽以上的翻譯事故和翻譯故事,不難發現,本次出包的不僅是Google平台的翻譯,還有不少網民的立場先行的思維,誤譯並非Google故意為之,也非Google翻譯遭人陷害,對電腦缺陷要調動人腦理性判斷,管窺蠡測地認定是中共網軍幕後操縱一切的思維方式,和深層政府(deep state)控制美國的陰謀論如出一轍——依靠偏頗特例或不充分的證據訴諸特定勢力圖謀不軌,把技術固有瑕疵誇張為幕後定勢操弄。與其做一些捕風捉影的揣測,不如多提升資訊素養,如果瞭解Google翻譯背後的運作原理,對於烏龍狀況自然能夠理性歸因,不致作出泛政治化的過度解讀。
正所謂瑕不掩瑜,對於偶發的技術問題不必苛責,居於執牛耳地位的Google翻譯稱不上完善,也遠遠無法代替訓練有素的人類譯者,但Google在重建巴別塔的道路上持續深耕,幫助大眾交流更加便,其貢獻也不應被以偏概全地忽視,對機器翻譯的未來,不妨保持審慎樂觀的態度。
※作者為自由撰稿人