AIが博士号レベルの知識テストを軒並み突破していく——そんなニュースにも、そろそろ驚かなくなってきました。けれど、本当に難しいのはそこではないのかもしれません。生物学の研究現場で日々起きているのは、答えのある問題を解くことではなく、「このデータ、そもそも信じていいのか」「どこかで前提を間違えていないか」と迷いながら進む作業です。散らかった実験データを前に、どの道を選ぶか。行き詰まったとき、どこまで戻ってやり直すか。この、言葉にしづらい「判断の勘どころ」を、AIはどこまで持てているのか。OpenAIが新しく公開したベンチマーク「GeneBench-Pro」は、まさにその一点に照準を合わせています。最強モデルでも正解率は3割に届かない——その数字の裏側を、一緒に見ていきましょう。
OpenAIは2026年6月30日、計算生物学におけるAIエージェントの判断能力を測定するベンチマーク「GeneBench-Pro」を発表した。前身のGeneBenchを拡張し、ゲノミクス、定量生物学、トランスレーショナル医療にわたる10ドメイン・21サブドメインの129問で構成される。
各問題は合成データで構築され、既知の目標値に対して決定論的に採点される。129問のうち82問は、UCLAのアレクサンダー・ストラドウィック・ヤング助教やジェニファー・グランドマン博士課程らを含む外部専門家に送付された。最高の推論レベルで、GPT-5.6 Solは28.7%(Proモードで31.5%)の正解率を達成した。当初のGeneBench開発時、GPT-5は5%未満だった。他社モデルではOpus 4.8が16.0%を記録した。
レビュアーは1問の所要時間を専門家で20〜40時間、時給200ドルで数千ドルと見積もった。推論コストは1問あたり数ドルである。代表的な10問はHugging Faceで公開され、50問のサブセットがArtificial Analysisへ提供される予定である。
From:
Introducing GeneBench-Pro | OpenAI
【編集部解説】
今回のGeneBench-Proが問うているのは、AIが「知っているか」ではなく「判断できるか」です。従来のベンチマークは知識の想起や定型的な解析の実行を測ってきましたが、現実の計算生物学では、目の前のデータがそもそも問いに耐えるのか、途中の診断結果を受けて解析方針を変えるべきか、といった判断の連鎖が成果を左右します。OpenAIはこれを「リサーチ・テイスト(研究上の目利き)」と名づけ、その巧拙を数値化しようとしました。
この設計で巧妙なのは、全129問を合成データで作っている点です。因果構造を出題側が完全に把握しているため、正解を既知の目標値に対して決定論的に採点できます。過去の実データを使う多くのベンチマークでは「作成者の恣意的な選択」が正解を左右してしまいますが、それを避けつつ、抜け道での正解も塞いでいるわけです。この「採点の厳密さ」こそが、判断力という曖昧な能力を測るための土台になっています。
もっとも、結果を額面どおり受け取るには注意も要ります。開発段階で問題の評価と強化にGPTモデル自身が使われたため、OpenAIは「GeneBench-ProがGPTモデルに不利に偏った可能性」をむしろ疑ったと述べています。ただし競合モデルはリリース時点の対応するGPTモデルに最大でも匹敵する程度で、多くは下回ったとしています。加えて「年内に飽和するかもしれない」という予測は、自社モデルの伸びを前提にした自己申告である点は割り引いて読むべきでしょう。ベンチマークを作る者が最高スコアも出す、という構図は常に慎重な検証を必要とします。
ここで視点を一段引いてみます。GeneBench-Proがブログで発表された2026年6月30日(プレプリントの投稿は前日6月29日)、Anthropicは同じ日に「Claude Science」という研究者向けアプリを発表しました。片方は「AIがどこまで到達したかを測る物差し」を、もう片方は「研究者が今日から使える道具」を世に出したことになります。ベンチマークと実装、この二正面が同日にぶつかったこと自体が、科学研究が両社の次の主戦場になったことを物語っています。
読者が最も注目すべきは、性能そのものより「コストの非対称性」かもしれません。OpenAIのレビュアーは、1問を人間の専門家が解くには20〜40時間、時給200ドル換算で数千ドル相当の労力がかかると見積もりました。一方、AIの推論コストは1問あたり数ドルです。最強のGPT-5.6 Solでも正解率は28.7%(Proモードで31.5%)にとどまりますが、たとえ部分的な自動化でも、この価格差なら経済的・科学的な価値が生まれうる、という論理です。
技術的な弱点も明確に見えています。外部レビュアーの一人は、多くのエージェントが「データの不整合(祖先の取り違えなど)」の検出でつまずいたと指摘しました。パターンは見つけられても、そのデータを除外すべきか調整すべきかという判断で詰めきれない。これは初心者が観察を全体像へ統合できない姿と重なります。逆に言えば、この「推論のループを閉じる力」が次の性能向上の焦点になります。
インパクトの射程は、創薬と臨床に直結します。遺伝的裏づけのある標的は承認治療につながりやすく、シーケンシングの低コスト化でバイオバンク規模のデータも揃いました。律速はデータ生成から「解析による意思決定」へ移りつつあり、そこをAIが担えれば、仮説の絞り込みから追跡研究までの反復サイクルが一気に速まります。
ただし、出題ドメインには臨床バリアント解釈や薬理ゲノミクスが含まれており、患者の治療方針が結論に依存する領域です。ここでAIの判断を使うなら、規制当局が求める再現性・監査可能性・人間による検証は不可欠になります。今回のベンチマークが、判断の連鎖を要する課題を既知ターゲットに対する決定論的な正誤で評価する設計になっているのは、裏を返せば、判断を誤ったときの責任が重い領域を扱っているからにほかなりません。
長期的には、AIの評価軸そのものが変わっていく兆しと読めます。教科書的な知識や定型解析の実行はいずれ測る意味を失い、より抽象度の高い「科学的判断」を探るベンチマークが主役になる——GeneBench-Proは、その転換点に置かれた最初の一里塚と位置づけられます。
【用語解説】
ゲノミクス
生物のゲノム(全遺伝情報)を対象に、配列・変異・発現などを網羅的に解析する分野である。
定量生物学
生命現象を数式や統計モデルで定量的に捉え、データから法則性を導く研究領域である。
トランスレーショナル医療
基礎研究の成果を、診断・治療といった臨床応用へ「橋渡し」する研究分野である。
推定量(estimand)
解析で最終的に見積もりたい目標値のこと。「何を推定するのか」を明確に定めた対象である。
リサーチ・テイスト(研究上の目利き)
OpenAIによる造語で、解析の形を決める一連の判断の連鎖を指す。どの問いにデータが耐えるか、途中結果で方針をどう変えるかといった、経験に根ざした嗅覚である。
合成データ/決定論的採点
実データではなく、出題側が因果構造を把握した人工データを使う手法。正解が既知のため、採点を機械的かつ一意に行える点が特徴である。
ベンチマーク
AIの能力を共通の課題群で数値化し、モデル同士を比較するための評価基準である。
薬理ゲノミクス(PGx)
個人の遺伝情報に基づき、薬の効き方や副作用の出方を予測する分野である。
臨床バリアント解釈
検出された遺伝子変異が病気とどう関わるかを、臨床的な意味づけとともに判断する作業である。
バイオバンク
多数の人の遺伝情報・表現型・健康記録を大規模に収集・連結した研究基盤である。
祖先の取り違え(ancestry swap)
サンプルの由来集団が取り違えられているデータ上の不整合。解析結果を歪める典型的な「落とし穴」の一つである。
推論のループを閉じる
観察から得た手がかりを次の解析判断へ正しくつなげ、結論まで到達すること。現行モデルが苦手とする点である。
AIエージェント
指示を受けて自律的にデータ探索・コード実行・意思決定を反復するAIの動作形態を指す。
【参考リンク】
Introducing GeneBench-Pro | OpenAI(外部)
本記事の一次ソース。GeneBench-Proの設計思想・ドメイン構成・評価結果を解説したOpenAI公式ページ。
GeneBench-Pro(bioRxivプレプリント)(外部)
手法・データセット・評価結果を詳述した査読前論文。129問・10ドメインの技術的裏づけが確認できる。
GeneBench-Pro 公開データセット(Hugging Face)(外部)
代表的な10問がオープンソース公開されているページ。実際の問題設定を手元で確認できる。
Artificial Analysis(外部)
AIモデルを独立評価する第三者機関。OpenAIが50問のサブセットを提供予定の外部ベンチマーカー。
Anthropic「Claude Science」(外部)
同日発表された研究者向けAIワークベンチの公式ページ。60以上の科学データベースを統合した実装型ツール。
OpenAI(公式サイト)(外部)
GeneBench-Pro・GPTシリーズを開発する米AI企業のトップページ。
【参考記事】
OpenAI introduces GeneBench-Pro to test AI research judgment(Investing.com)(外部)
GPT-5.6 Solが28.7%・Pro時31.5%、Opus 4.8が16.0%など数値を網羅。1問は専門家で20〜40時間・時給200ドルと報じる。
Anthropic and OpenAI Take Their AI War Into Scientific Research(BeInCrypto)(外部)
同日発表のClaude ScienceとGeneBench-Proを「同日対決」として整理。数字と競争構図の両面を押さえた一本。
OpenAI introduces GeneBench to evaluate AI on computational biology’s hardest problems(Crypto Briefing)(外部)
前身GeneBench(103問)を解説。GPT-5.5 Proが最高33.2%、約60%の問題が20%未満と報じる基準点。
GeneBench-Pro: Evaluating Multistage Statistical Reasoning…(bioRxiv)(外部)
一次資料の査読前論文。GPT-5.5が12.0%、GPT-5.4が8.9%、Opus 4.8が16.0%と記載。発表日照合にも参照した。
Claude Science is Anthropic’s newest flagship product(MIT Technology Review)(外部)
Claude Scienceを主力製品と位置づける記事。ジョン・ジャンパー氏のAnthropic移籍にも触れる。
Researchers say Anthropic’s Claude Science will boost drug discovery(Northeastern Global News)(外部)
Claude Scienceへの現場研究者の反応をまとめた記事。期待と「置き換えではない」との慎重論を併記する。
【関連記事】
Claude Science、Anthropicが拓く科学者の新作業環境—創薬・ゲノム解析を一つの会話で
本記事と同日発表。OpenAIの「物差し」に対するAnthropicの「道具」。同日対決の相方として読み比べたい一本。
OpenAI GPT-5.6発表、米政府要請で限定提供—エージェントAIの安全と逸脱リスク
GeneBench-Proで最高スコアを出したGPT-5.6 Sol/Terra/Lunaの発表記事。モデル側の背景を押さえられる。
OpenAI「Rosalind Biodefense」始動、生命科学AI GPT-Rosalindを防御の盾に
OpenAIの生命科学特化モデルGPT-Rosalindを扱う。今回の計算生物学ベンチマークと地続きのテーマ。
【編集部後記】
このニュースを追いかけていて、いちばん引っかかったのは正解率の低さではありませんでした。「観察はできるのに、判断につなげられない」という失敗のかたちが、どうにも他人事に思えなかったからです。データの中におかしな点があることには気づく。でも、それを除外すべきか、補正すべきか、いったん保留するか——そこで手が止まる。これはAIだけの弱点ではなく、経験の浅い頃の自分たちにも、たぶん覚えのある感覚ではないでしょうか。
だからこそ、GeneBench-Proが測ろうとしているものは、遠い研究室の話にとどまらない気がしています。仕事でも生活でも、私たちが「なんとなくこっちだな」と道を選ぶとき、その勘は膨大な失敗と後戻りの積み重ねからできています。AIがその領域に足を踏み入れ始めたということは、逆に、私たちが普段どれほど無自覚に高度な判断をしているかを、あらためて突きつけられているようにも感じます。
一方で、忘れずにおきたいこともあります。このベンチマークを作ったのも、最高スコアを出したのも同じOpenAIで、点数は自己申告に近い性格を持っています。「年内に飽和する」という威勢のいい見通しも、そのまま鵜呑みにするより、来年どうなったかを自分の目で確かめるくらいがちょうどいい距離感でしょう。臨床や創薬という、判断を誤れば人の体に関わる領域が対象に含まれている以上、速さと同じくらい、慎重さの価値も上がっていくはずです。
数年後、AIが研究者の隣で当たり前に「目利き」を担う日が来たとき、この2026年夏の3割弱という数字を、ずいぶん低かったなと懐かしく振り返っているのか、それとも、あの壁は思ったより高かったと語っているのか。どちらに転ぶにせよ、その分岐点をリアルタイムで眺められているのは、なかなか面白い時間だと思います。












