Nous Researchは2025年8月28日、オープンソースAIモデル「Hermes 4」を発表した。同社によると、ChatGPTを上回る性能を持ちながらコンテンツ制限なしでユーザーコントロールを提供する。
Hermes 4は14B、70B、405Bパラメータの3つのサイズで提供され、ハイブリッド推論機能を搭載している。最大405Bパラメータモデルは、MATH-500ベンチマークで96.3%、AIME’24数学コンペティションで81.9%のスコアを記録した。
RefusalBenchでは57.1%を達成し、GPT-4oの17.67%、Claude Sonnet 4の17%を大幅に上回った。モデルの訓練には192台のNvidia B200 GPUと71,616 GPU時間を使用した。
DataForgeとAtroposという2つの新システムで訓練され、350万の推論サンプルと160万の非推論サンプルを含む500万サンプルのデータセットを生成した。Nous Researchは今年、Paradigm主導で6500万ドルの資金調達を行っている。
From: Nous Research drops Hermes 4 AI models that outperform ChatGPT without content restrictions
【編集部解説】
今回のNous Research「Hermes 4」リリースは、AI業界の勢力図を大きく変える可能性を秘めています。これまでOpenAIやGoogle、Anthropicといった大手テック企業が独占してきた最先端AI技術に、小規模スタートアップが真正面から挑戦状を叩きつけた格好です。
特に注目すべきは「コンテンツ制限なし」という設計思想でしょう。現在の商用AIは安全性を重視するあまり、研究用途や創作活動において過度に保守的な回答しか提供しない場面が多々あります。Hermes 4はこうした制約を取り払い、ユーザーが真に求める柔軟性を実現しています。
技術的な革新も見逃せません。「ハイブリッド推論」機能により、ユーザーは高速応答と深い思考モードを状況に応じて使い分けることが可能になりました。これは従来のAIが持つ「ブラックボックス問題」を解決する重要な一歩といえます。AIがどのような思考プロセスを経て答えに至ったかが可視化されることで、研究者や開発者にとって極めて価値の高いツールとなるでしょう。
一方で、制約のないAIモデルには当然リスクも伴います。悪意のある利用者が有害なコンテンツ生成やディスインフォメーション拡散に活用する可能性は否定できません。オープンソースという性質上、一度公開されたモデルの使用方法をコントロールすることは困難です。
また、192台のNvidia B200 GPUを71,616時間使用したという膨大な計算リソースも興味深い点です。これは決して小規模とは言えない投資であり、真の意味でオープンソースAIが商用レベルに達するためには相応のコストが必要であることを示しています。
長期的には、この動きが規制当局の注目を集める可能性も高いでしょう。EUのAI法案やその他の地域における規制強化の流れの中で、制約のないAIモデルがどのような扱いを受けるかは今後の焦点となります。
《補足説明》
① 本稿で扱った Hermes 4は厳密には「オープンウェイト」モデルです。
② オープンウェイトとは、学習済みの重み(weights)が公開され、ダウンロード/再配布/微調整などが可能である一方で、学習データや訓練コード、完全な再現手順の公開までは要件としない公開形態を指します(この点で、OSIが定義する「オープンソースAI」とは区別されます)。
③ 近年の大型モデルでも、OpenAIのgpt‑oss、AlibabaのQwen3は「オープンウェイト」であると明記され、MetaのLlama 4やGoogleのGemma 3も独自ライセンスの下で重み公開に近い形で提供されています(※DeepSeekは版によりMITで真にオープンソースのものもあります)。
呼び方として“オープンソース”が用いられるのは、無料で使える/ローカルで動かせるといった実務上の利便性や読者への分かりやすさを優先した慣用的表現であり、意図的な誤用を指摘するものではありません。
【用語解説】
オープンソース AI(Open-source AI)
ソースコードが公開され、誰でも自由に利用・改変・再配布できるAIモデル。商用AIとは対照的に、透明性と自由度を重視する。
大規模言語モデル(LLM)
膨大なテキストデータで訓練された深層学習モデルで、自然言語の理解と生成を行う。GPTやClaudeなどが代表例である。
パラメータ
AIモデルの複雑さを示す指標で、数値が大きいほど高度な処理が可能だが、計算資源も多く必要となる。
ベンチマーク
AIモデルの性能を客観的に評価するためのテスト。MATH-500は数学問題、AIME’24は数学オリンピック形式の問題を含む。
強化学習(Reinforcement Learning)
AIが試行錯誤を通じて最適な行動を学習する手法。正しい回答に対して報酬を与えることで性能を向上させる。
GPU(Graphics Processing Unit)
元々グラフィック処理用だが、AI訓練における並列計算に適している半導体チップ。Nvidia B200は最新の高性能GPU。
【参考リンク】
Nous Research公式サイト(外部)
人間中心のAIモデル開発を手掛けるスタートアップの公式サイト。同社の研究成果やビジョンを紹介している。
Hermes 4公式ページ(外部)
今回発表されたHermes 4モデルの詳細仕様、ベンチマーク結果、使用方法などを掲載した専用サイト。
Anthropic(外部)
Claude AIを開発する米国のAI安全性研究企業。対話型AIの分野でOpenAIと競合する。
【参考動画】
【参考記事】
Nous Research Team Releases Hermes 4: A Family of Open-Weight AI Models with Hybrid Reasoning(外部)
Hermes 4の技術仕様とベンチマーク結果を詳しく解説。3つのモデルサイズの性能比較や訓練システムについて技術的観点から分析している。
Nous Research and Psyche, the open-source, decentralized AI revolution(外部)
Nous Researchの企業背景と分散AI訓練プロジェクト「Psyche」について解説。同社の資金調達とa16zからの助成金について報告している。
The great AI agent acceleration: Why enterprise adoption is happening faster than anyone predicted(外部)
企業でのAI活用が予想以上に進んでいることを示すVentureBeatの調査結果。大企業の68%がエージェントAIを導入済みという統計データを提示している。
【編集部後記】
今回のHermes 4の登場は、AIの民主化における重要な転換点かもしれません。これまで一握りの大手企業が握っていた高性能AI技術が、オープンソースとして誰でもアクセスできるようになりました。みなさんは、このような技術的な平等化がもたらす可能性をどう感じられますか?
特に興味深いのは「コンテンツ制限なし」という設計思想です。現在お使いのChatGPTやClaudeで「この質問には答えられません」と言われた経験はありませんか?Hermes 4はそうした制約を取り払うことで、研究や創作活動における新たな可能性を開こうとしています。一方で、こうした自由度の高いAIが社会に与える影響についても、ぜひ一緒に考えていきたいと思います。