月刊コールセンタージャパン

東工大、産総研と共同で日本語能力に優れた大規模言語モデルを開発

東京工業大学（以下、東工大）は2023年12月、国立研究開発法人産業技術総合研究所（以下、産総研）と共同で、日本語能力に優れた生成AIの基盤である大規模言語モデル(LLM)「Swallow」を開発した。同モデルは、東工大情報理工学院の岡崎研究室と横田研究室の合同研究チームにより、既存の大規模言語モデルに日本語の文字や単語を追加し、継続学習を実施する手法で開発された。

同プロジェクトでは、Meta社が開発したLLM「Llama 2」の7B、13B、70Bのモデルをベースに開発。東工大では、主にデータの語彙拡張によるモデル学習・推論効率の改善に取り組み、産総研は、LLMの構築に必須の計算資源として、産総研柏センター内のAI橋渡しクラウド（ABCI：AI Bridging Cloud Infrastructure）を提供するとともに、継続学習によるモデルの日本語能力の改善を担当した。

Llama 2は、事前学習データの９割を英語が占める一方、日本語はわずか0.1%に留まっている。「日本語の読み書きは苦手」とされていたため、同研究チームは、日本語と英語のウェブコーパスをそれぞれ9:1の割合で事前学習を実施。また、約3121億文字（約1.73億ページ）からなる日本語ウェブコーパスを構築。この規模は、mC4（約2397億文字）、OSCAR23.10（約740億文字）、CC-100（約258億文字）を超え、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大となる。

Swallowは一般公開され、商用利用が可能。日本語に強く、オープンな大規模言語モデルが登場したことで、日本国内の学術機関・産業における大規模言語モデルの研究開発・活用の促進、製品開発や技術革新につながるはずだ。

＜関連記事＞
・TokyoTech-LLM 「Swallow」
（https://tokyotech-llm.github.io/swallow-llama）

2024年01月31日 18時11分公開

2024年01月22日 13時45分更新

生成AI