innovaTopia

ーTech for Human Evolutionー

AI言語モデルの革新:複数トークン予測で精度と速度が向上

AI言語モデルの革新:複数トークン予測で精度と速度が向上 - innovaTopia - (イノベトピア)

Last Updated on 2024-07-05 08:44 by admin

Meta、Ecole des Ponts ParisTech、Université Paris-Saclayの研究者たちは、AI大規模言語モデル(LLM)の精度と速度を向上させるために、複数のトークンを同時に予測することを提案した。これは、一度に1つのトークンを予測する従来の自己回帰言語モデルの構造に対するものである。複数トークン予測は全てのモデルや言語タスクに適しているわけではないが、一部の領域では速度を3倍にし、生成タスクのパフォーマンスを向上させる大きな利点を提供する。この技術はまだ改善の余地があるが、一部のLLMアプリケーションにとって強力なツールになる可能性がある。

従来のLLMの訓練方法は「次のトークン予測」として知られ、モデルにトークンのシーケンスを与え、次に来るトークンを予測させる自己教師あり学習技術である。この方法では、モデルは大量のテキストデータを繰り返し処理することで、一貫したテキストのパッセージを出力するための一般的なパターンを学習する。研究者たちは、次のトークン予測の限界を研究し、言語、世界知識、推論能力の獲得におけるその限界を文書化している。

複数トークン予測は、LLMに訓練コーパス内の各位置から複数の未来のトークンを同時に予測させることを指示する。研究者たちは、追加の訓練時間やメモリオーバーヘッドを必要としないシンプルな複数トークン予測アーキテクチャを提案している。このモデルは、ほとんどのLLMで使用されているトランスフォーマーアーキテクチャに基づいているが、複数の独立した出力ヘッドを持つなどの変更が加えられている。

研究者たちは、300万から130億のパラメータを持つモデルで新しい複数トークン予測スキームをテストし、いくつかの興味深い観察結果を得た。例えば、小さなモデルでは複数トークン予測が悪化する結果となるが、モデルサイズが大きくなるにつれてますます有用になる。特に、4トークン予測で訓練された67億および130億パラメータのモデルは、MBPPコーディングベンチマークでベースラインの単一トークン予測を数パーセンテージポイント上回った。

複数トークン予測は、幅広いバッチサイズにわたって推論時にモデルを最大3倍高速にする。また、複数トークン予測を事前学習することで、追加のヘッドが次のトークン予測モデルの単純な微調整よりもはるかに正確になり、モデルが自己推測デコーディングの全潜在能力を引き出すことを可能にする。この研究は、複数トークン予測が長期的なパターンの学習を促進することも示している。特に、バイトレベルのトークン化で訓練されたモデルでは、複数バイト予測がベースラインの単一バイト予測モデルを大きく上回る。

【ニュース解説】

Meta、Ecole des Ponts ParisTech、Université Paris-Saclayの研究者たちが、AI大規模言語モデル(LLM)の精度と速度を向上させるために、複数のトークンを同時に予測する新しい手法を提案しました。このアプローチは、従来の自己回帰言語モデルが一度に1つのトークンを予測する方法とは異なり、生成タスクのパフォーマンスを向上させると同時に、速度を最大3倍に高めることができるとされています。

従来のLLMは、与えられたトークンのシーケンスから次に来るトークンを予測する「次のトークン予測」という方法で訓練されています。この方法では、モデルは大量のテキストデータを通じて、テキストを生成するための一般的なパターンを学習します。しかし、このアプローチは、モデルが局所的なパターンに過度に依存し、より長期的な推論を必要とする予測を見落とす傾向があるという限界があります。

複数トークン予測は、訓練中にモデルに対して、複数の未来のトークンを同時に予測させることを指示します。この手法は、トランスフォーマーアーキテクチャをベースにしつつ、複数の独立した出力ヘッドを持つことで、追加の訓練時間やメモリオーバーヘッドなしに実装されます。

この研究では、複数トークン予測が特に大規模なモデルで有効であることが示されています。例えば、4トークン予測で訓練された大規模モデルは、コーディングベンチマークで従来の単一トークン予測よりも優れたパフォーマンスを示しました。また、推論時の速度が大幅に向上し、特にバイトレベルのトークン化で訓練されたモデルでは、長期的なパターンの学習が促進されることが確認されました。

この技術の応用により、コード補完などの生成タスクにおいて、より高速で正確な推論が可能になることが期待されます。また、既存のLLMアーキテクチャとの互換性を保ちつつ、追加コストなしで性能向上を図ることができるため、企業アプリケーションへの応用の可能性も広がります。

しかし、複数トークン予測にはまだ改善の余地があり、最適なトークン数の予測や、語彙サイズとのダイナミクスを自動的に選択する技術など、今後の研究の方向性が示されています。この技術の発展は、AIの言語理解と生成能力をさらに高め、より効率的で精度の高いモデルの開発に寄与することが期待されます。

from Meta’s new multi-token prediction makes AI models up to 3X faster.

ホーム » AI(人工知能) » AI(人工知能)ニュース » AI言語モデルの革新:複数トークン予測で精度と速度が向上