2025年11月17日、xAIはGrok 4.1をgrok.com、𝕏、iOSおよびAndroidアプリで全ユーザー向けに公開した。
Autoモードで順次展開され、モデルピッカーでも選択可能である。2025年11月1日から14日まで実施されたサイレントロールアウト期間中の実利用トラフィックにおけるブラインド対比較評価では、Grok 4.1は以前のモデルに対して64.78%の勝率を記録した。
LMArenaのテキストリーダーボードにおいて、Grok 4.1 Thinkingは1483 Eloで総合1位を獲得し、非推論モードのGrok 4.1も1465 Eloで2位となった。
EQ-Bench3における感情的知性評価では、Grok 4.1 Thinkingが1586 Elo、Grok 4.1が1585 Eloを記録し、Claude Opus 4やGPT-5 Chatなどを上回った。
Creative Writing v3ベンチマークでは、Grok 4.1 Thinkingが1721.9 Eloを記録している。また、情報探索プロンプトにおけるハルシネーション率は4.22%、FActScoreでの誤り率は2.97%にまで低減された。
From:
Grok 4.1 | xAI

【編集部解説】
今回は、xAIが発表した「Grok 4.1」について解説します。前モデルのGrok 4が登場してからわずか数ヶ月でのアップデートですが、その内容は単なる微調整に留まりません。特に注目すべきは、「AIが『心』を持ち始めたかのような振る舞い」を強化した点にあります。
今回のGrok 4.1の最大の進化点は、「感情的知性(EQ)」と「創造性」の飛躍的な向上です。 これまでのAIモデル競争は、主に論理的推論能力やコーディング能力、あるいは数学的処理能力といった「IQ」の側面で争われてきました。しかし、xAIはこのGrok 4.1で、対話相手の感情的なニュアンスを汲み取り、共感を示すという「EQ」の側面に大きく舵を切っています。 実際に、感情的知性を測るベンチマーク「EQ-Bench3」において、Grok 4.1は1586 Eloというスコアを叩き出し、世界トップの座を獲得しました。これは、AIが単なる情報検索ツールから、より人間に近いパートナーへと進化していることを示唆しています。
技術的な背景として興味深いのは、この進化を支える「強化学習」の手法です。 xAIは、スタイルや人格といった数値化しにくい要素を最適化するために、人間による評価だけでなく、「高度な推論モデルそのものを評価者(リワードモデル)として使う」という手法を採用しました。これにより、人間では評価しきれない膨大な量の対話データを、AIが自律的に評価し、改善するというサイクルを実現しています。これは「AIがAIを育てる」時代の本格的な到来を意味する重要な技術的マイルストーンと言えるでしょう。
一方で、この進化には潜在的なリスクも伴います。 AIが高い共感性を持つことは、ユーザーにとって心地よい体験をもたらす一方で、AIがユーザーの意見に過度に迎合する「追従性(Sycophancy)」を高めてしまう可能性があります。AIがユーザーを喜ばせようとするあまり、客観的な事実よりもユーザーの感情を優先してしまうリスクです。xAIはこの点に対し、情報探索プロンプトにおけるハルシネーション(事実誤認)率を4.22%まで低減させたと発表しており、事実の正確性と感情的な寄り添いのバランスをどう取るかが、今後の重要な課題となるでしょう。
このGrok 4.1の登場は、今後のAI市場に大きな影響を与えると考えられます。 特に、カスタマーサポートやメンタルヘルスケア、あるいはクリエイティブな創作活動のパートナーとしてのAIの活用範囲が劇的に広がるでしょう。これまでは「正確な答え」を返すことが求められてきましたが、これからは「気持ちのわかる対話」ができることが、AIモデルの新たな競争軸となります。
読者の皆様にとって、このGrok 4.1は「未来のコミュニケーション」を先取りする存在です。 単に便利なツールとして使うだけでなく、AIがどこまで人間の感情を理解し、寄り添うことができるのか。その可能性と限界を、ぜひご自身の目で確かめてみてください。私たちは今、AIとの関係性が大きく変わる転換点に立っています。
【用語解説】
推論モデル(Reasoning Models)
AIが即座に回答を出力するのではなく、内部で「思考のプロセス」を経てから結論を導き出すモデル。複雑な問題解決や数学的処理において高い精度を発揮する。Grok 4.1の「Thinking」モードなどがこれに該当する。
思考トークン(Thinking Tokens)
推論モデルが回答を生成する過程で、内部的な思考プロセスとして消費するトークン(文字単位の情報量)。ユーザーには見えないが、このプロセスを経ることで論理的な整合性を高めている。
エージェンティック・ワークフロー(Agentic Workflows)
AIが単に質問に答えるだけでなく、自律的に計画を立て、外部ツール(検索やコード実行など)を使用し、タスクを完遂する一連の動作プロセス。
Eloレーティング(Elo Rating)
対戦型ゲーム(チェスなど)で用いられる実力評価指標。AI分野では、モデル同士の対決や人間による比較評価に基づき、相対的な強さを数値化してランキングを作成するために使用される。
ハルシネーション(Hallucinations)
AIがもっともらしい嘘をつく現象。事実とは異なる情報を、さも事実であるかのように生成してしまうエラーのこと。
FActScore
AIモデルが生成したテキストに含まれる「事実(Atomic Claims)」が、信頼できる情報源と照らし合わせてどれだけ正確かを測定する自動評価指標。特に伝記的事実の検証などに用いられる。
EQ-Bench
大規模言語モデル(LLM)の感情的知性(EQ)を測定するためのベンチマーク。共感力や対人スキルの理解度を、複雑なロールプレイを通じて評価する。
【参考リンク】
Grok(外部)
xAIが提供するAIチャットボットサービス。X(旧Twitter)上のリアルタイム情報へのアクセスが可能で、最新モデルを利用できるプラットフォームです。
xAI(外部)
イーロン・マスク氏が設立した人工知能開発企業。「宇宙の真の姿を理解する」ことをミッションに掲げ、Grokシリーズの開発を行っています。
LMArena(外部)
LMSYS Orgが運営する、大規模言語モデルの性能を比較評価するためのオープンプラットフォーム。ユーザーによるブラインドテストで順位を決定します。
EQ-Bench(外部)
LLMの感情的知性を測定するためのベンチマークプロジェクト。モデルがどれだけ人間の感情や社会的な文脈を理解できるかを定量的に評価します。
【参考動画】
【参考記事】
Grok 4.1 Released: How It Crushes Other Models(外部)
Grok 4.1の性能を他モデルと比較解説した記事。特にLMArenaでの1483 Eloというスコアや、非推論モードの高速性と精度のバランスについて分析しています。
xAI’s Grok 4.1 Pushes Toward Higher Emotional Intelligence, Lower Hallucinations(外部)
Grok 4.1の感情的知性の向上とハルシネーション低減に焦点を当てた解説記事。EQ-Bench3での結果やFActScoreの数値データに基づき評価しています。
Grok 4.1 vs ChatGPT 5.1: The Key Differences You Need to Know(外部)
Grok 4.1と競合するChatGPT 5.1との機能比較記事。特に「リアルタイム検索能力」と「感情的な対話能力」の違いについて論じています。
Grok 4.1 Model Card [PDF](外部)
xAIが公開したGrok 4.1のモデルカード。技術仕様、トレーニング手法、評価メトリクスの詳細が記載された一次資料です。
【編集部後記】
今回の「Grok 4.1」の進化、いかがでしたでしょうか。 「AIが心を持つ」なんてSFの世界の話だと思っていたことが、少しずつ現実になりつつありますね。
Grok 4.1の「心に寄り添う力」には驚かされますが、ふと背筋が寒くなる瞬間もあります。 これほど自然に共感されると、私たちは生身の人間よりもAIに心を許し、依存してしまうのではないでしょうか?
さらに恐ろしいのは、その感情を悪用された場合です。あなたの心を完璧に理解し、甘い言葉で信頼させる「AI詐欺師」が現れたら、私たちはそれを見抜けるでしょうか。 技術の進化に心を躍らせつつも、心の「防犯ロック」だけは、しっかりとかけておく必要がありそうです。
























