中國網路金融服務公司「螞蟻集團」,使用中國製造的半導體晶片訓練人工智慧模型,約可降低20%的成本。圖為螞蟻集團位於香港的辦公室。(美聯社)
《彭博》引述消息人士報導,中國電子商務平台「阿里巴巴」創辦人馬雲支持的中國網路金融服務公司「螞蟻集團」,使用中國製造的半導體晶片,來開發訓練人工智慧模型的技術,不僅降低近20%的成本,效果也媲美使用輝達H800晶片所達到的水準。這不僅代表螞蟻集團加入美中之間的AI競賽行列,也凸顯中國企業正積極尋找本地產品,來替代最先進但無法取得的輝達晶片。
中國網路金融服務「螞蟻集團」是由中國電商平台「阿里巴巴」發展出來、目前獨立運作,但在資金、技術上仍與阿里巴巴關係緊密的金融科技公司。近日,螞蟻集團推出兩款大型語言模型(LLM)百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus)。《彭博》23日報導,消息人士表示,螞蟻使用中國製造的晶片,包括來自阿里巴巴和中國電信龍頭華為的晶片,並採用「混合專家模型」(Mixture of Experts,MoE)機器學習方法,來訓練人工智慧(AI)模型。螞蟻集團稱,這樣訓練出來的效果接近使用輝達(Nvidia)H800晶片所達到的水準。螞蟻雖然目前仍有使用輝達晶片開發AI,但知情人士指出,螞蟻最新的模型訓練大多改用超微半導體公司(AMD)和中國製晶片為主。
此外,螞蟻本月也發表一篇論文,聲稱他們的模型在某些評測中的表現,甚至超過了Meta(臉書母公司)。雖然這一點尚未經《彭博》獨立驗證,但若成果真如他們所說,螞蟻的平台可能代表中國AI發展邁出另一大步,因為它能大幅降低AI推理或支援AI服務的成本。
隨著各家公司在AI領域投入大量資金,MoE模型逐漸受到重視,包括美國科技公司谷歌(Google)和中國AI初創公司「深度求索」(DeepSeek)都在使用。這種技術的原理是把任務拆解成多個較小的數據集,就像擁有一個專家團隊,當中每個專家專注於不同的部分,讓處理流程更有效率。
不過,MoE模型的訓練通常需要像輝達所提供的高效能GPU(圖形處理器)來執行。對很多小公司來說,這樣的成本太高,成為普及推廣的障礙。螞蟻一直在研究如何更有效率地訓練大型語言模型(LLM),試圖突破這個限制。從他們論文的標題看出,目標就是在「不使用高階GPU」的情況下,讓模型持續擴展。
這種做法其實跟輝達的策略背道而馳。輝達執行長黃仁勳一直強調,就算出現像DeepSeek R1這種更高效的模型,對運算能力的需求仍會持續增加。他認為企業要賺更多錢,靠的是性能更強的晶片,而不是靠便宜的方案來節省成本。因此輝達將一直專注於打造具備更多運算核心、電晶體和更大記憶體的高階GPU。
螞蟻表示,若使用高性能硬體訓練1兆個「符元」(token)的成本,大約是635萬人民幣,但如果採用他們優化過的方法,改用性能較低的硬體來訓練,成本可降至約510萬人民幣,節省近20%。所謂「符元」是指,AI模型學習世界知識並產生回應時,所接收的資訊單位。
螞蟻的Ling-Plus的參數數量達到2900億,在語言模型領域中算是體量相當大的模型,這些參數負責調整模型的運作方式。而根據《麻省理工科技評論》(MIT Technology Review)估計,ChatGPT 的GPT-4.5擁有約1.8兆個參數,而 DeepSeek-R1有6710億個。
螞蟻集團加入美中之間的AI技術競賽行列。從中國DeepSeek推出低成本、高效能的AI模型後,這場競爭就越演越烈。這也凸顯中國企業正積極尋找本地產品,來替代最先進但無法取得的輝達晶片。雖然H800晶片不是輝達最先進的產品,但仍是一款相當強大的處理器,目前已被美國禁止出口到中國。