ーTech for Human Evolutionー

Google Gemini 1.5 Pro: OpenAIを凌駕する次世代AI、その革新性と課題

AI（人工知能）ニュース

Headline News

TaTsu

[公開]

2024年8月3日8:10

[更新]2024年8月31日

DALLE 2024-08-03 081002 - A futuristic illustration showing a glowing blue gemstone representing Gemini 15 Pro floating above a persons hand The gemstone emits rays of lig - innovaTopia

2024年2月15日、Googleは新しい生成AIモデル「Gemini 1.5 Pro」を発表した。このモデルは、100万トークン（約70万単語）の長文処理能力を持ち、画像、音声、ビデオ、コードなどのマルチモーダルな入力に対応している。

Gemini 1.5 Proは、OpenAIのGPT-4を含む競合モデルを上回る性能を示し、LMSYSチャットボットアリーナリーダーボードで首位を獲得した。

2024年4月9日にプレビュー版がリリースされ、5月23日には一般提供が開始された。さらに、6月27日には200万トークンコンテキストウィンドウの一般提供が始まった。

しかし、2024年2月26日頃、Geminiの画像生成機能に関する問題が浮上した。歴史的に不正確な画像を生成したり、特定の人種や性別に偏った結果を出力したりする問題が指摘された。

これを受けてGoogleは謝罪し、Geminiの人物画像生成機能を一時的に停止した。Google DeepMindのCEOであるデミス・ハサビスは、数週間以内に機能を再開する予定だと述べている。

この問題は、テスラCEOのイーロン・マスクやFiveThirtyEightの創設者ネイト・シルバーなど、著名人からも批判を受けた。

Googleは、AIの多様性を確保しようとする試みが行き過ぎた結果だとし、改善に取り組むと表明している。この問題を受けて、Alphabet（Google親会社）の株価は2024年2月26日に4%以上下落した。

from:Google’s AI comeback: New Gemini models dethrone OpenAI in shocking upset

【編集部解説】

皆さん、こんにちは。innovaTopiaの編集部です。今回は、GoogleのAIモデル「Gemini 1.5 Pro」の最新動向について解説していきます。

まず、Gemini 1.5 Proの正式リリースについて確認しましょう。2024年4月に公開プレビューが行われ、その後6月24日にGoogleが正式リリースを発表しました[1][3]。この発表は、AI業界に大きな影響を与えています。

Gemini 1.5 Proの特筆すべき点は、そのマルチモーダル処理能力です。音声、動画、テキスト、コードなど、複数の形式のデータを同時に処理できる点が革新的です[3]。これにより、AIの応用範囲が大きく広がることが期待されています。

また、Gemini 1.5 Proは100万トークン（約70万単語）という長文処理能力を持っています[1]。これは、大量のデータを一度に分析できることを意味し、複雑な問題解決や長文の要約などに威力を発揮するでしょう。

興味深いのは、Gemini 1.5 ProがOpenAIのGPT-4を含む競合モデルを上回る性能を示している点です[1]。LMSYSチャットボットアリーナリーダーボードで首位を獲得したことは、その性能の高さを裏付けています。

しかし、技術の進歩には常に課題が付きまといます。Geminiの画像生成機能に関する問題が浮上し、Googleは一時的に機能を停止する措置を取りました[1]。これは、AIの倫理的な使用や公平性の確保が重要であることを改めて示しています。

Gemini 1.5 Proの応用範囲は非常に広いです。例えば、健康分野では、ウェアラブルデバイスのデータを解析し、人間の専門家を上回る精度で睡眠や運動に関するアドバイスを提供できる可能性が示されています。これは、個人化された健康管理の未来を示唆しています。

ビジネス面では、Gemini 1.5 ProがGoogle Workspaceに統合されることで、業務効率が大幅に向上する可能性があります。例えば、Gmailでの自動返信生成や、Google Docsでの文書作成支援など、日常的なタスクが効率化されるでしょう。

【用語解説】

マルチモーダルAI:
テキスト、画像、音声など複数の情報形式を同時に処理できるAI技術。人間の五感のように、様々な入力を統合して理解する能力を持つAIと考えるとわかりやすいでしょう。
トークン:
AIモデルが処理する最小単位の文字や単語のこと。日本語で例えると、「こんにちは」は1トークンですが、「東京スカイツリー」は複数のトークンに分割される可能性があります。
プロンプト:
AIに対する指示や質問のこと。レストランで注文するように、AIに対して何をしてほしいかを伝える文章です。

【参考リンク】

Google AI Studio（外部）
説明: GoogleのAI開発プラットフォーム。Gemini 1.5 Proを含む最新のAIモデルを試すことができます。

【関連記事】

AI（人工知能）ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧