日本積極佈局大型語言模型發展,企業及研究機構攜手合作開發-2
發布時間 : 2024-08-09

根據預測,全球生成式AI市場將從2023年的106億美元快速成長到2030年的2,110億美元。在AI快速發展下,大型語言模型(Large Language Model, LLM)正成為熱門話題。LLM是AI中的一個重要技術,能夠幫助機器理解和回應人類的問題與需求,協助完成文案撰寫、知識庫查詢、文字分類等任務。

日本政府也投入預算支援發展LLM,2024年AI相關預算編列為1,640.9億日圓,其中10.6億日圓用於風險因應,601.2億日圓用於促進AI的應用,568.4億元用於強化日本國內LLM開發能力,包括新增10億日圓加強資料庫的整備與擴充。

根據研究,日本在發展日語的LLM上,挑戰之一為克服日語訓練資料規模遠小於英語的劣勢,因此衍生出的LLM訓練方式有「完全自行開發」及「以英語系LLM為基底追加日語訓練」兩大類型。

完全自行開發的方法是從頭開始學習日語,建立獨特的模型結構。這種方法的優勢是能更好地掌控模型的學習過程和特性;但同時也需投入大量的預訓練數據和計算資源,在模型完成訓練後,還需要額外教導遵循指示、安全性等能力。

另一種以英語系LLM為基底追加日語訓練的方式,是以現有英語系LLM為基礎,進行深入的日語知識微調與訓練。這種方式可以彌補日語訓練資料不足的問題,同時擁有英語模型原有的豐富知識。

以日本ELYZA開發的ELYZA-japanese-CodeLlama-7b為例,採用Code Llama(7B)為基礎追加學習日語,保有原始模型能力的同時,經由訓練獲得日語能力。(ELYZA是2018年從東京大學松尾研究室獨立出來的,自2020年起成功開發自有的LLM,以支援大型企業活用AI發展業務為主要目標。)

目前日本企業多數著眼自主研發具日本特色的LLM,例如NTT tsuzumi、Line Yahoo的japanese-large-lm、CyberAgentLM2-7B等,活用現有資源與技術進行研究開發,力圖在競爭激烈的市場中搶下主導地位。

新開發的LLM想在市場脫穎而出,根據NTT研究,控制參數數量、提升模型精確度,同時節省電力達到永續發展的方式逐漸得到重視。隨著電腦運算能力持續提升,LLM的參數規模也在不斷擴大。開發LLM時追求參數規模的擴張,是否真能帶來相對應的效果,仍待觀察與討論。

日語LLM的市場不可小覷,根據預測,未來日本生成AI市場將躍升至全球第三,為日本企業帶來頗具潛力的發展空間。以抗衡ChatGPT、Google Gemini等國際大型模型為目標,日本企業正卯足全力做好準備迎接未來挑戰。

資料來源:

  • ELYZA-オープンなLLM (大規模言語モデル)の発展と、それを活かした日本語LLMの開発について
  • 期待高まる国産生成AI(前編)──AIの歴史的変遷と大規模言語モデルの動向NTT情報通信總合研究所
  • 令和6年度概算要求におけるAI関連予算について