︿

私有雲版ChatGPT的出現

闕志克 2023年04月25日 07:00:00
有效管制這類私有雲型基礎語言模型的使用,將會是世界各地政府即將面對的重要議題。(美聯社)

有效管制這類私有雲型基礎語言模型的使用,將會是世界各地政府即將面對的重要議題。(美聯社)

在ChatGPT橫空出世四個月之後,Open AI發表了GPT-4,其語言模型比ChatGPT的基礎語言模型(GPT-3.5)約大十倍,用於預測下一個字元的前文長度從4,098字元擴大為32,768字元,並且可以運用包括韓文和義大利文等26種語言與用戶溝通。第三方測試結果顯示,比之於GPT-3.5,GPT-4的通識能力大幅提升: 美國大學考試(SAT)成績1410分(從82%進步成94%)、法學院入學考試(LSAT)成績163分(從40%進步成88%)、美國律師檢覈考試(Uniform Bar Exam)成績298分(從10%進步成90%),這些成績清楚證明GPT-4已明顯優於參加同等考試人類考生的平均表現。在不到半年的時間內,GPT-4就展現如此巨大的進步,GPT這個技術五年後將演進到甚麼境界,實在令人無法想像。

 

雖然GPT-4功能如此強大,企業用戶對於使用時需將公司機敏資料外送到公有雲端服務,多有遲疑。譬如說,意欲用GPT-4自動找出商業合約中最有利害相關的片段,就需將合約文本提交給GPT-4;如想藉助GPT-4遍讀過往所有公司產品的工程設計、製造、測試文件,以作為未來產品研發的參考、借鏡與重複使用,則需將這些文件送往GPT-4。上述的使用模式很顯然地與大多數企業既有的資訊治理規範扞格不入。此所以,個別跨國公司如摩根大通、亞馬遜、Verizon和Accenture 皆以保護客戶機敏資料的理由,全面禁止員工使用ChatGPT。甚至,義大利基於Open AI對如何使用客戶提交的資料加強訓練ChatGPT的過程不夠透明為理由,成為第一個也是目前為止唯一一個禁止ChatGPT在其國內運作的西方國家。

 

解決以上客戶使用ChatGPT時資料隱私疑慮的方法之一是將ChatGPT的服務跑在企業自己的伺服器上,也就是將ChatGPT私有雲化。(美聯社)

 

解決以上客戶使用ChatGPT時資料隱私疑慮的方法之一是將ChatGPT的服務跑在企業自己的伺服器上,也就是將ChatGPT私有雲化,如同微軟允許其客戶在其自家電腦安裝運行其商用資料庫管理軟體(MS SQL)一樣。也許是基於保護ChatGPT智慧財產權的顧慮,微軟與Open AI到目前為止並沒有提供客戶這樣的選項,而這可能為其他競爭者打開了一扇機會之窗。

 

臉書於2023年2月底發表它所研發出來名為LLaMA的基礎語言模型,這個模型的自然語言處理能力明顯超越GPT-3,但其大小不到GPT-3的十三分之一。最重要的是,在公開發表後不到一個星期,LLaMA模型的所有細節參數就遭洩漏、在網路上廣為流傳,這個發展無意間讓大學與研究界得以從事以前不太可能進行的大型語言模型的研發工作。

 

LLaMA公諸於世後,史丹福大學的研究團隊首先藉助GPT-3.5產出52,000組問題與答案,這一步花了500美元;接著他們租用公有雲運算服務,使用這些問題與答案加強訓練一版有七十億個參數的LLaMA模型,這一步則花了100美元。這樣訓練出來的模型,名為Alpaca,其效能經作者人工自評,與ChatGPT相比約在伯仲之間,但其開發時間只需兩個禮拜、總花費只有600美元!

 

無獨有偶,同樣在今年三月柏克萊加大也採用類似Alpaca的加強訓練手法,但乃基於一版有一百三十億個參數的LLaMA模型,使用的訓練資料則是免費取自ShareGPT.com的70,000組問題與答案。這樣訓練出來的模型,名為Vicuna,其綜合自然語言處理能力,經GPT-4判定,約為ChatGPT的92%,但總花費則降至300美元。

 

前述在基礎語言模型上令人眼花撩亂、目眩神搖的近期發展產生以下兩個重大意涵。首先,這些奠基於LLaMA所發展出來的語言模型可能演變成為能讓企業就自身需求加以客製且符合其資料隱私要求的私有雲版ChatGPT,進而威脅Open AI在企業客戶市場的商業競爭力。其次,因為ChatGPT需對全世界開放,所以Open AI花了非常巨大的功夫確保它對用戶安全無虞且不至被濫用誤用。上述源於LLaMA開發而成的基礎語言模型並不具有這些防備措施,一旦為歹徒持有可能對社會貽害無窮。職是之故,如何以類似防止核子技術擴散的方式,有效管制這類私有雲型基礎語言模型的使用,將會是世界各地政府即將面對的重要議題。

 

※作者為清華大學合聘教授

 




 

 

【上報徵稿】

 

上報歡迎各界投書,來稿請寄至editor@upmedia.mg,並請附上真實姓名、聯絡方式與職業身分簡介。

上報現在有其它社群囉,一起加入新聞不漏接!社群連結

 



回頂端