innovaTopia

ーTech for Human Evolutionー

Google Cloud、Gemini 1.5のAIモデル公開で開発者に新たな可能性を提供

Google Cloud、Gemini 1.5のAIモデル公開で開発者に新たな可能性を提供 - innovaTopia - (イノベトピア)

Last Updated on 2024-06-28 05:25 by admin

Google Cloudは、フラグシップAIモデルの2つのバリエーション、Gemini 1.5 FlashとGemini 1.5 Proを一般に公開した。Gemini 1.5 Flashは、狭い範囲の高頻度タスクを対象とした小型のマルチモーダルモデルであり、100万のコンテキストウィンドウを持つ。これは5月のGoogle I/Oで初めて紹介された。一方、Gemini 1.5 Proは、GoogleのLLM(Large Language Models)の中で最も強力なバージョンであり、2月に初めて登場し、2百万のコンテキストウィンドウを含むように大幅にアップグレードされた。このバージョンは現在、すべての開発者に開放されている。

これらのGeminiバリエーションのリリースは、GoogleのAI作業がビジネスにどのように「魅力的な」AIエージェントやソリューションを開発する力を与えるかを示すことを目的としている。Google Cloudの最高経営責任者(CEO)であるThomas Kurianは、Accenture、Airbus、Anthropic、Box、Broadcom、Cognizant、Confluent、Databricks、Deloitte、Equifax、Estée Lauder Companies、Ford、GitLab、GM、Golden State Warriors、Goldman Sachs、Hugging Face、IHG Hotels and Resorts、Lufthansa Group、Moody’s、Samsungなどの組織がそのプラットフォーム上で構築していることにより、「信じられないほどの勢い」を見ていると語った。

Gemini 1.5 Flashは、小売チャットエージェント、ドキュメント処理、リポジトリ全体を合成できるボットに適したコンテキストウィンドウを備え、開発者に低遅延と手頃な価格を提供する。Googleによると、Gemini 1.5 Flashは、10,000文字の入力が与えられた場合、GPT-3.5 Turboより平均で40%速い。また、32,000文字を超える入力に対してコンテキストキャッシングが有効になっている。

Gemini 1.5 Proに関しては、開発者ははるかに大きなコンテキストウィンドウを利用できる。200万トークンを持つこのモデルは、これまでにないほど多くのテキストを処理し、応答を生成する前に考慮できるため、そのクラスでは独自のものである。

Googleは、Gemini 1.5 ProとFlashの両方に対して公開プレビューでコンテキストキャッシングを導入している。コンテキストキャッシングにより、モデルは既に持っている情報を保存し、リクエストを受け取るたびに最初からすべてを再計算することなく再利用できる。これは、長い会話やドキュメントに役立ち、開発者のコンピュートコストを削減する。Googleは、コンテキストキャッシングが入力コストを75%削減できると明らかにしている。

Geminiモデルの使用をよりスケールできるようにするために、Googleはプロビジョニングスループットを導入している。この機能は、モデルが時間経過で処理できるクエリやテキストの量を決定する。以前は「ペイ・アズ・ユー・ゴー・モデル」で課金されていたが、今後はプロビジョニングスループットを選択できるようになり、本番ワークロードにおける予測可能性と信頼性が向上する。プロビジョニングスループットは、本日から許可リストを持って一般に提供される。

【ニュース解説】

Google Cloudが、そのフラグシップAIモデルであるGemini 1.5 FlashとGemini 1.5 Proの2つのバリエーションを一般公開しました。これらのモデルは、開発者がより高度なAIエージェントやソリューションを開発することを可能にすることを目的としています。

Gemini 1.5 Flashは、狭い範囲の高頻度タスクに特化した小型のマルチモーダルモデルで、100万のコンテキストウィンドウを持ちます。これにより、小売チャットエージェントやドキュメント処理、リポジトリ全体を合成するボットなど、低遅延と手頃な価格を必要とするアプリケーションに適しています。Googleによると、このモデルはGPT-3.5 Turboよりも40%速く、32,000文字を超える入力に対してはコンテキストキャッシングが有効になります。

一方、Gemini 1.5 Proは、200万トークンのコンテキストウィンドウを持つ、GoogleのLLM(Large Language Models)の中で最も強力なバージョンです。これにより、開発者はこれまでにないほど多くのテキストを処理し、応答を生成する前に考慮できるようになります。例えば、2時間の高解像度ビデオや、1日分のオーディオ、60,000行以上のコード、150万語以上のテキストを一度に処理することが可能です。

これらのモデルのリリースは、GoogleがAI分野でどれだけ進歩しているかを示すものであり、多くの企業がGoogleのプラットフォームを利用して独自のソリューションを開発していることを示しています。また、Googleは開発者の経験を向上させるために、コンテキストキャッシングとプロビジョニングスループットという新しいモデル機能を導入しています。

コンテキストキャッシングは、モデルが既に持っている情報を保存し、リクエストを受け取るたびに最初からすべてを再計算することなく再利用できるようにする機能です。これは長い会話やドキュメントに特に有用であり、開発者のコンピュートコストを削減します。プロビジョニングスループットは、開発者がモデルの使用をよりよくスケールできるようにする機能であり、本番ワークロードにおける予測可能性と信頼性を向上させます。

これらの技術の進化は、AIの可能性を広げ、より複雑で大規模なタスクを処理できるようにする一方で、データのプライバシーやセキュリティ、倫理的な問題に対する新たな課題を提起します。また、これらの技術が広く利用されるにつれて、規制やガイドラインの整備がより重要になってくるでしょう。長期的には、これらのAIモデルの進化がどのように社会や産業に影響を与えるかを見極めることが重要です。

from Google opens up Gemini 1.5 Flash, Pro with 2M tokens to the public.

ホーム » AI(人工知能) » AI(人工知能)ニュース » Google Cloud、Gemini 1.5のAIモデル公開で開発者に新たな可能性を提供