︿

台積電對ChatGPT讀書機器人應該很有興趣

闕志克 2023年03月20日 07:00:00
ChatGPT證明它完全具有「讀書機器人」應有的功能,且閱讀速率比人類快速很多,還能二十四小時進行,並無限期永遠持續下去。(美聯社)

ChatGPT證明它完全具有「讀書機器人」應有的功能,且閱讀速率比人類快速很多,還能二十四小時進行,並無限期永遠持續下去。(美聯社)

ChatGPT的底層語言模型是第3.5版的GPT(Generative Pre-Training Transformer) 模型。這類模型運用大量無需人工標註的語料(所謂非監督性學習),預先訓練一個Transformer神經網路架構以建立起固定長度輸入字串及其緊接字元的預測關係,如果再加上針對特定自然語言處理功能的少許標註語料訓練(所謂監督性學習),即可客製成具該功能的文句產生器。在應用時,GPT將用戶提示作為第一個輸入字元串,藉其預測模型產出相應回答裡的第一個字元,接著把用戶提示加上剛產出的第一個字元組成第二個輸入字元串,再產出回答裡的第二個字元,然後以此類推,最終將整個回答全部產生出來。

 

2018年公佈的GPT1.0含1.17億個參數,由五十億位元的語料訓練而成,初試蹄聲就證明了這種「大部分非監督性,少部分監督性」的訓練方式,對某些自然語言處理功能而言,是可以勝過從頭到尾以監督性訓練客製出來的系統。隔年現世的GPT2.0,內含15億個參數,訓練語料總共四百億位元,無需任何監督性訓練、只需用適當的提示,就可在八個常見自然語言處理功能(如文章摘要、文章分類、文章理解、機器翻譯、問題回答等)中的七個,勝過從頭訓練出來的客製系統。

 

到了2020年的GPT3.0,模型參數達1750億,訓練語料達四十五兆位元,不僅在大多數傳統自然語言處理功能上,不需微調或額外訓練,就可勝過從頭訓練的客製系統;在其他非傳統的功能如加減算術、文章生成、程式編寫,也有令人背脊發涼的優異表現。尤其,GPT3.0生成的長篇大論,品質之高直逼人類寫手,更如平地雷起、一鳴驚人。ChatGPT是GPT3.5再加上針對自然語言問答作監督性訓練而成。比之於前面幾個版本,ChatGPT的最大特色是用戶提示中的用詞無需特意設計、題材可以天南地北,而且回答大都語句通順、內容切題,因而被公認一舉突破聊天機器人數十年來的技術瓶頸。前幾天發表的GPT4.0,比GPT3.0大9倍,且昂然跨出文字的範圍,進一步展示出理解與描述複雜圖像的能力。

 

光憑這種概念簡單的逐字預測模型就能產生文法正確、內容契合提示的回答,且回答裡所含的豐富細節及條理分明的文章結構,與有經驗的寫手相比毫不遜色,這樣的表現連GPT的研發團隊本身都大為吃驚。因為使用這種逐字預測的輸出模式,ChatGPT回答裡的陳述並非直接引用既有資料庫,所以錯誤難免;也基於同樣原因,ChatGPT 才得以用內插或外插的方式組合訓練語料中的想法而形成對前所未見的問題提出創新見解。

 

ChatGPT證明它完全具有「讀書機器人」應有的功能:從個別文章擷取其主要想法,比較相關文章所提出想法的異同優劣,並針對之前文章從未探索但條件類似的情境組合出新穎的見解。這樣的讀書機器人不但閱讀速率比人類快速很多,而且能二十四小時進行,更可以無限期永遠持續下去。這意味著,從今而後即便在單一特定領域裡,世界上學問最大的個體不再會是自然人,而是像ChatGPT這樣的讀書機器人;而所謂的歷史文化保存與產業創新研發,也將因此產生天翻地覆的變化。

 

文化保存的一大重點是古代與當代文字的收集、整理與傳播。近年來,數位典藏蔚為風潮,古代與當代文書先是數位化,再以現代資料庫技術將其分門別類、建立索引,以便後人搜尋閱覽。然而讀書機器人的到來預期將歷史文化保存推向另一個前所未有的境界:一個遍讀所有古代與當代文字的讀書機器人,將這些文字分解消化、融會貫通後組成包羅萬象、旁徵博引、交叉串聯的知識庫,使後人得以超越個別文章文本,進行以前所不可能進行的查詢、探索、比對與正反論證。

 

從產業科技研發的角度,讀書機器人也將帶來極大的衝擊。譬如說,台積電應該很有興趣將最近100年所有與半導體工程技術有關,包括相關的物理化學材料學科的研究論文與專利發明餵進類似ChatGPT的讀書機器人,以全面深度的整理,從而產生博聞強記、廣泛連結的知識庫,作為在未來產業走向與製程技術的研究過程中,重要的諮詢對象。微軟的BioGPT就是針對生醫產業研發所開發的讀書機器人。事實上,這種將研究論文經讀書機器人咀嚼內化而成的產業別知識庫,必將成為台灣各行各業未來不可或缺的科研基礎設施。

 

※作者為清華大學合聘教授




 

 

【上報徵稿】

 

上報歡迎各界投書,來稿請寄至editor@upmedia.mg,並請附上真實姓名、聯絡方式與職業身分簡介。

上報現在有其它社群囉,一起加入新聞不漏接!社群連結

 



回頂端