ーTech for Human Evolutionー

Google、新型Gemini 1.5 Flash発表：高速タスク処理を実現

AI（人工知能）ニュース

Headline News

admin

[公開]

2024年5月15日5:55

[更新]2024年5月15日

Googleは、Gemini 1.5 Flashという新しい小型のマルチモーダルモデルを発表した。このモデルは、スケールと狭い範囲の高頻度タスクに対応するために設計されており、200万トークンのコンテキストウィンドウを持つという「画期的な」特徴を備えている。Gemini 1.5 Flashは、Google AI Studio内のGemini APIを通じて公開プレビューで今日から利用可能である。一方、Gemini 1.5 Proもまた、コンテキストウィンドウを100万トークンから200万トークンに拡大し、2月にデビューした。開発者はこのアップデートにサインアップするためにウェイトリストに登録する必要がある。

Gemini 1.5 FlashとGemini 1.5 Proの間にはいくつかの顕著な違いがある。前者は出力速度を重視するユーザー向けであり、後者はより重量があり、Googleの大型1.0 Ultraモデルと同様に動作する。Googleのジョシュ・ウッドワード副社長は、低遅延が重要な迅速なタスクを対象とする場合にはGemini 1.5 Flashを使用すべきだと指摘している。一方、Gemini 1.5 Proは「より一般的または複雑で、しばしば複数ステップの推論タスク」に適していると説明している。

Googleのモデルは、最も軽量なGemmaとGemma 2から、Gemini Nano、Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini 1.0 Ultraに至るまで幅広い。開発者は、使用ケースに応じて異なるサイズ間で移動することができる。これらのモデルはすべて、同じマルチモーダル入力能力、同じ長いコンテキストを持ち、同様のバックエンドで動作する。この新しい小型言語モデルは、Googleの最大のAI競合であるOpenAIがGPT-4oを発表した後、24時間以内に明らかにされた。両方のGemini 1.5モデルは、欧州経済領域、英国、スイスを含む世界中の200カ国以上で公開プレビューで利用可能である。

【編集者追記】用語解説

トークン：自然言語処理において、文章を単語や記号などの最小単位に分割したものをトークンと呼びます。AIモデルはトークン化された文章を処理します。

【編集者のつぶやき】
本文で「マルチモーダル入力」とさらっと書かれているので、少し補足させてください

マルチモーダルとは、複数の異なる種類のデータ（モダリティ）を組み合わせて処理する技術やアプローチのことを指します。

具体的には、テキスト、音声、画像、動画、センサ情報など、2つ以上の異なるデータ形式を統合的に扱うことで、より豊かな情報処理や深い理解、洞察を得ることができます。

これに対し、単一の種類のデータのみを扱う場合は、シングルモーダルやユニモーダルと呼ばれます。

マルチモーダルアプローチは、人間の五感に似た複合的な情報処理を可能にし、AIの分野では特にマルチモーダルAIとして注目を集めています。

自然言語処理と画像認識を組み合わせたモデルや、自動運転における多様なセンサ情報の統合など、様々な応用が期待されています。

【参考リンク】
Googleの「Gemini 1.5 Pro を使用した Vertex AI」（外部）

【ニュース解説】

Googleは、新しい小型の多モードモデルであるGemini 1.5 Flashを発表しました。このモデルは、特にスケールと狭い範囲の高頻度タスクを効率的に処理することを目的として設計されており、200万トークンという大規模なコンテキストウィンドウを持つことが特徴です。Gemini 1.5 Flashは、Google AI Studio内のGemini APIを通じて、公開プレビューとして提供されています。また、同じく200万トークンのコンテキストウィンドウを持つGemini 1.5 Proも存在し、こちらはより複雑なタスクに適しています。

Gemini 1.5 Flashは、出力速度を重視するユーザーに向けたモデルであり、迅速なタスク処理に最適化されています。一方、Gemini 1.5 Proは、より重量があり、複数ステップの推論タスクなど、より一般的または複雑なタスクに対応する設計となっています。これにより、開発者はタスクの性質に応じて、より適切なモデルを選択することが可能になります。

このようなモデルの提供は、AI技術の応用範囲を広げると同時に、開発者がより柔軟にAIを活用できるようにすることで、AI技術の発展に寄与します。特に、Gemini 1.5 Flashのような高速で効率的なモデルは、リアルタイムでのデータ処理や、ユーザーの待ち時間を最小限に抑える必要があるアプリケーションにおいて重要な役割を果たすことが期待されます。

しかし、これらのモデルが提供する便利さと効率性の向上には、データセットの大きさや学習の深さに関する制限も伴います。特に、より大規模なデータセットや複雑なタスクに対応するためには、Gemini 1.5 Proのようなより高度なモデルへの移行が必要になる場合があります。

また、このようなAIモデルの開発と普及は、倫理的な規制やプライバシー保護の観点からも新たな課題を提起します。AI技術の進化に伴い、これらのモデルがどのように利用され、管理されるべきかについて、業界全体での議論と共通の基準の確立が求められています。

長期的には、Gemini 1.5 FlashやGemini 1.5 Proのようなモデルの進化は、AI技術のさらなる発展と応用範囲の拡大を促進するでしょう。これにより、AIが人間の生活やビジネスプロセスにもたらす影響はさらに大きくなり、新たなイノベーションの創出につながる可能性があります。

from Google announces Gemini 1.5 Flash, a rapid multimodal model with a 2M context window.

AI（人工知能）ニュース