Last Updated on 2025-05-18 22:34 by admin
OpenAIは2025年5月14日、新しい非推論型大規模言語モデル(LLM)「GPT-4.1」および「GPT-4.1 mini」をChatGPTユーザー向けに提供開始した。GPT-4.1は高性能と低コストのバランスを取ったモデルで、当初はAPIのみでの提供を予定していたが、ユーザーからの強い要望を受けてChatGPTにも追加された。
まずはChatGPT Plus、Pro、Teamの有料ユーザーから提供を開始し、Enterprise版とEducation版ユーザーへのアクセスは今後数週間以内に予定されている。また、GPT-4.1 miniはGPT-4o miniに代わり、無料ユーザーを含むすべてのChatGPTユーザー向けのデフォルトモデルとなる。
モデルの特徴と性能
GPT-4.1は2025年4月5日に発表されたモデルで、企業グレードの実用性を重視して設計された。特にコーディングと指示追従に優れており、SWE-bench VerifiedソフトウェアエンジニアリングベンチマークでGPT-4oと比較して21.4ポイントの改善を実現し、ScaleのMultiChallengeベンチマークにおける指示追従タスクでは10.5ポイントの向上を達成している。
また、GPT-4.1は他のモデルと比較して冗長性が50%削減されており、この特性は初期テスト中に企業ユーザーから高く評価された。
コンテキストウィンドウと価格
ChatGPT上のGPT-4.1は、無料ユーザーは8,000トークン、Plusユーザーは32,000トークン、Proユーザーは128,000トークンのコンテキストウィンドウをサポートしている。一方、API版のGPT-4.1は最大100万トークンを処理できるが、この拡張された容量はまだChatGPTでは利用できない。
OpenAIのAPIにおける価格設定は以下の通りである
- GPT-4.1:入力トークン100万あたり2.00ドル、キャッシュされた入力トークン100万あたり0.50ドル、出力トークン100万あたり8.00ドル
- GPT-4.1 mini:入力トークン100万あたり0.40ドル、キャッシュされた入力トークン100万あたり0.10ドル、出力トークン100万あたり1.60ドル
GPT-4.1 miniはGPT-4oと比較して83%のコスト削減を実現しながら、多くのベンチマークでGPT-4oと同等またはそれ以上の性能を発揮する。
安全性評価
OpenAIは安全性評価のためのSafety Evaluations Hubウェブサイトを立ち上げ、ユーザーがモデル間の主要なパフォーマンス指標にアクセスできるようにした。
GPT-4.1は事実の正確性テストでSimpleQAベンチマークで0.40、PersonQAで0.63のスコアを獲得し、標準的な拒否テストではOpenAIの「安全でない」指標で0.99、より難しいプロンプトでは0.86のスコアを獲得した。
人間が作成したジェイルブレイクプロンプトに対しては0.96という高いスコアを獲得しており、一般的な使用における実世界の安全性が堅牢であることを示している。
今後の展開
OpenAIは、GPT-4.5 のAPI提供を2025年7月14日に終了することを発表した。これは、GPT-4.1ファミリーが多くの主要な機能においてGPT-4.5と同等またはそれ以上の性能を、より低いコストとレイテンシで提供できるようになったためである。
GPT-4.1の導入は、最大のモデルを構築することから、より多くの人々がアクセスでき適応可能な有能なモデルへと向かう業界のトレンドを反映している。
References:
OpenAI brings GPT-4.1 and 4.1 mini to ChatGPT — what enterprises should know
【編集部解説】
OpenAIが新たに発表したGPT-4.1および4.1 miniは、AIの進化において注目すべき転換点を示しています。これまでのモデル開発では「より大きく、より強力に」という方向性が主流でしたが、GPT-4.1シリーズは「より実用的に、より効率的に」という新たな潮流を体現しています。
特筆すべきは、GPT-4.1が当初API専用として設計されていたにもかかわらず、ユーザーからの強い要望を受けてChatGPTにも導入された点です。これはOpenAIがユーザーフィードバックを重視する姿勢の表れといえるでしょう。
GPT-4.1の最大の特徴は、コーディングと指示追従における卓越した性能です。SWE-benchでGPT-4oと比較して21.4ポイントもの改善を達成しており、これは開発者にとって非常に価値のある進化と言えます。また、冗長性が50%削減されたことで、より簡潔で的確な回答が得られるようになりました。
もう一つの革新的な特徴は、API版での100万トークンという驚異的なコンテキストウィンドウです。これにより、コードベース全体や大規模な法的文書を一度に処理できるようになり、企業における実務での活用範囲が大幅に広がります。例えば、複数の契約書を同時に分析したり、大規模なログファイルから異常を検出したりといった作業が効率化されるでしょう。
価格面では、GPT-4.1 miniがGPT-4oと比較して83%ものコスト削減を実現しながら、同等以上の性能を発揮している点が革新的です。これにより、中小企業や予算の限られたチームでも高性能AIを活用できる可能性が広がります。
安全性に関しては、OpenAIが新たに立ち上げたSafety Evaluations Hubによって、各モデルのパフォーマンス指標が透明化されました。GPT-4.1は事実の正確性や標準的な拒否テストで高いスコアを獲得していますが、StrongReject jailbreakテストでは課題が残されています。これは学術的な極端なケースでの評価であり、実際の使用では人間が作成したジェイルブレイクに対して0.96という高いスコアを示していることから、一般的な使用においては十分な安全性が確保されていると考えられます。
興味深いのは、GPT-4.5 Previewが2025年7月14日に終了することが発表された点です。これは、GPT-4.1ファミリーが多くの主要機能においてGPT-4.5と同等以上の性能を、より低いコストとレイテンシで提供できるようになったためです。GPT-4.5は2025年2月に研究プレビューとして登場し、より優れた教師なし学習や幻覚の減少(GPT-4oの61.8%から37.1%に低下)などを特徴としていましたが、高コストと一部タスクでの期待外れのパフォーマンスが課題でした。
この動きは、AIモデル開発における重要な転換点を示しています。単に「より大きなモデル」を追求するのではなく、実用性、効率性、アクセシビリティを重視する方向へと業界全体が移行しつつあるのです。
企業ユーザーにとっては、GPT-4.1の導入によりAIの展開効率が向上し、より正確で信頼性の高いAIシステムの構築が可能になります。特に、指示追従の向上により、プロンプトエンジニアリングの負担が軽減され、より直感的なAI活用が期待できます。
一方で、ChatGPT上ではまだAPI版の100万トークンというコンテキスト容量が利用できない点や、安全性評価の一部で改善の余地がある点は課題として残されています。
今後は、GPT-4.1シリーズの普及により、より多くの企業や個人がAIの恩恵を受けられるようになるでしょう。特にGPT-4.1 miniの無料ユーザーへの提供は、高性能AIの民主化という点で大きな一歩と言えます。
私たちinnovaTopiaは、このようなAI技術の進化が人間の創造性や生産性を拡張し、より良い社会の実現に貢献することを期待しています。同時に、AIの発展に伴う倫理的・社会的課題にも目を向け、技術の適切な活用方法について継続的に考察していきます。
【用語解説】
非推論型大規模言語モデル(LLM):
従来のGPT-4oなどの「推論型」モデルと異なり、GPT-4.1は推論よりもコード生成・指示追従に特化したモデルである。推論型は複雑な思考や創造的な発想に強いのに対し、非推論型は正確な指示実行や技術的タスクに優れている。
トークン:
AIが処理する文章の最小単位。日本語では大体1.5〜2文字で1トークンとなる。コンテキストウィンドウのサイズ(例:32,000トークン)はAIが一度に処理できる文章量を示している。
コンテキストウィンドウ:
AIが一度に記憶・処理できる情報量。例えるなら、人間の「作業記憶」のようなもので、大きいほど長い文章や複雑な指示を一度に処理できる。
ベンチマーク:
AIの性能を客観的に測定するためのテスト。例えばSWE-benchはソフトウェア開発能力を、MultiChallengeは指示追従能力を測定する。
幻覚(ハルシネーション):
AIが事実と異なる情報を自信を持って生成してしまう現象。GPT-4.1は幻覚の発生率が従来モデルより低減されている。
【参考リンク】
ChatGPT(外部)
ChatGPTの公式サイト。アカウント登録後、無料でも利用可能。
【参考動画】
【編集部後記】
AIの進化は日々加速しています。GPT-4.1シリーズの登場で、皆さんのプロジェクトや業務にどのような変化をもたらせるでしょうか?コーディング支援や指示追従の向上は、具体的にどんな場面で役立ちそうですか?また、無料で使えるGPT-4.1 miniを試してみて、従来モデルとの違いを感じられましたか?ぜひ皆さんの体験や活用アイデアをSNSで共有してください。