顧客の離反も、不正な取引も、その兆しはたいてい一枚の表の中に眠っています。ただ、その表から予測を引き出すのは長らく専門家の仕事でした。データを整え、特徴を設計し、モデルを何度も調整する——その積み重ねが、予測分析を「限られた人のもの」にしてきたのです。Googleが発表したTabFMは、その前提を静かにひっくり返そうとしています。学習させず、調整もせず、表を見せればその場で答えを返す。しかもいずれは、SQLをひとこと書くだけで。予測が誰の手にも届く未来が、思っていたより近くまで来ているのかもしれません。
Google Researchは2026年6月30日、表形式データ向けの基盤モデルTabFMを発表した。著者はリサーチサイエンティストのウェイハオ・コンとアビマニュ・ダスである。
TabFMは分類と回帰のワークフローを対象とし、表形式データの予測をインコンテキスト学習(ICL)の問題として扱う。手作業によるモデル学習、ハイパーパラメータ調整、特徴量エンジニアリングを不要とし、未知の表に対して一度の順伝播で予測を生成する。TabPFNとTabICLの設計を統合したハイブリッド構造を採用し、構造的因果モデル(SCM)で生成した数億件の合成データセットのみで学習する。
評価はベンチマークTabArenaで行い、分類38件・回帰13件のデータセット(サンプル数700〜150,000件)を対象とした。TabFMはHugging FaceとGitHubで公開済みであり、今後数週間のうちにGoogle BigQueryへ統合され、SQLコマンドAI.PREDICTで利用可能になる。
From:
Introducing TabFM: A zero-shot foundation model for tabular data
【編集部解説】
まず、この発表の本質は「XGBoostを超える新しいアルゴリズムが出た」ことではありません。むしろ、大規模言語モデルが当たり前にした「学習させずに、その場で答えを出す」という発想が、企業データの中核である表計算の世界にまで到達した、という点にこそ意味があります。TimesFMが時系列で示した路線を、Googleが表形式データへと横展開してきた格好です。
技術的にやや分かりにくいのが「学習しない」という表現でしょう。従来は、新しいデータが来るたびにモデルの内部パラメータを調整し直していました。TabFMはこれをやめ、手元の表そのものを「お手本」として丸ごと読み込み、その場(推論時)に列と行の関係を解釈して答えを返します。人間が例題を数問見てから応用問題を解く感覚に近いものです。
補足すると、TabFMの実装はscikit-learn互換でfit()を呼ぶ形をとりますが、これはカテゴリ変数の符号化や数値の正規化といった前処理を整える工程で、基盤モデル自体のパラメータを再学習しているわけではありません。「学習ゼロ」という言葉の正確な射程はここにあります。
このアプローチ自体はGoogleのオリジナルではない点も押さえておきたいところです。表形式の基盤モデルは、2022年に原型が提案されたTabPFNが先行しており、その改良版であるTabPFN v2は2025年にNature誌へ掲載されました。TabFMもブログ内で、このTabPFNとTabICLの長所を統合したと明言しています。合成データで事前学習するという核心の手法も、TabPFN v2がおよそ1億3000万件の合成データセットで学習していたとされる系譜の延長線上にあります。Googleの独自性は、発明そのものより「規模」と「流通経路」にあると読むのが公平でしょう。
その流通経路こそ、今回の最大の焦点です。TabFMは数週間のうちにGoogle BigQueryへ統合され、AI.PREDICTというSQL一行で予測が動く予定です。データサイエンティストの専門作業だった離反予測や不正検知が、SQLを書ける現場の担当者の手に降りてくるかもしれません。これが実現すれば、予測分析のコストや人員のあり方が構造的に変わる可能性は高いでしょう。
ただし、いま公開されている姿には実務上の制約もあります。Hugging Faceで配布されているモデルの重みは非商用・非本番利用に限定されており、そのままでは商用サービスへ組み込めず、別途の商用ライセンスが必要です。また分類は最大10クラスまでという上限も明記されています。誰でも試せる一方で、業務にそのまま載せるにはこうした条件を確認しておく必要があります。
性能評価にも留保が必要です。今回の報告はTabArenaのEloスコアが中心ですが、Eloは改善の「度合い」までは表現できず、TabArenaが持つ複数の指標が併記されていない点を疑問視する声も出ています。ベンチマークで強いことと、各社の雑多で汚れた実データで同じ結果が出ることは別問題です。独立した検証がこれからの試金石になります。
リスクや論点も見えてきます。予測がSQL一行で出せるようになるほど、その予測を「なぜそうなったか」を説明できないまま業務判断に使う危険が増します。金融の与信や不正検知では、説明可能性や公平性が規制の要件になりつつあり、ブラックボックスな一発予測との緊張は避けられません。また合成データで学ぶ構造上、現実のバイアスをどう扱うかも継続的な検証課題です。
長期的に見れば、これは「モデルを作る時代」から「モデルを呼び出す時代」への移行を象徴する一歩だと考えられます。表計算という、AIの華やかな話題からはやや外れて見えていた領域にまで基盤モデルの波が及んだ事実は、私たちが向き合う予測の民主化が、想像以上に足元まで来ていることを示しています。
【用語解説】
ゼロショット予測
予測したい対象に合わせた追加の学習をいっさい行わず、未知のデータに対してそのまま予測を返す方式を指す。
インコンテキスト学習(ICL)
モデルの内部パラメータを更新せず、入力として与えた例と指示だけから、その場でタスクを解く手法。大規模言語モデルで広く知られるようになった。
順伝播(フォワードパス)
入力をモデルに通し、出力(予測)を得るまでの一方向の計算のこと。TabFMはこの一回の計算だけで予測を出す。
特徴量エンジニアリング
生のデータから、予測に効く「特徴量」を人手で設計・加工する工程。専門知識と試行錯誤を要する、従来の予測モデル構築のボトルネックとされてきた。
Elo(イロ)スコア
チェスなどで使われる、対戦の勝敗から相対的な強さを算出する指標。モデルどうしの一対一の勝率をもとに順位付けするが、勝敗のみを見るため「どれだけ差をつけたか」までは表さない。
XGBoost/ランダムフォレスト
いずれも決定木を組み合わせた、表形式データの予測で長年主流だった機械学習手法。堅牢だが、新しいデータへの適用のたびに調整を要する。
TabPFN/TabICL
TabFMに先行する表形式データ向けの基盤モデル。合成データで事前学習し、ICLで予測する系譜を築いた。TabFMはこの両者の設計の長所を統合したとしている。
【参考リンク】
TabFM(GitHub / google-research)(外部)
scikit-learn互換で、ゼロショットの分類・回帰を試せるコード(Apache 2.0)とTabArenaの評価結果を公開する公式リポジトリ。
google/tabfm-1.0.0-pytorch(Hugging Face)(外部)
学習済み重みの公式配布ページ。非商用・非本番利用に限定され、商用や本番導入には別途の商用ライセンスが必要となる。
Google BigQuery(外部)
TabFMが統合予定のデータウェアハウス。SQLのAI.PREDICTから直接、高度な予測を実行できるようになる基盤サービス。
TabArena(外部)
TabFMの評価に用いられた継続更新型ベンチマークの公式サイト。各データセットでのモデル順位や複数の指標、推論時間を公開する。
XGBoost(公式ドキュメント)(外部)
TabFMが比較対象とした、従来主流の勾配ブースティング手法の公式ドキュメント。導入から使い方、パラメータまで網羅する。
【参考記事】
Google AI Introduces TabFM(MarkTechPost)(外部)
TabFMを技術面から整理し、SCMによる数億件の合成データ学習やTimesFMの表形式版という位置づけを明快にまとめた解説記事。
Google unveils TabFM for zero-shot predictions on tabular data(cifrum.kz)(外部)
fit()は前処理の準備で基盤モデルを再学習しない、という「学習ゼロ」の正確な意味を補強する実装面の注意点を伝える記事。
Google Research unveils TabFM, a zero-shot model for tables(AI Weekly)(外部)
Elo結果の再現性とBigQuery版の価格・レート制限という、実務で注視すべき2点を挙げて影響と留保を整理した記事。
TabArena explained(Mindful Modeler)(外部)
分類38・回帰13で評価しEloは差の大きさを表さない仕組みや、TabArenaの開発主体を解説したベンチマーク解説記事。
Google has released ‘TabFM’(GIGAZINE)(外部)
モデルは非商用ライセンス、コードはApache 2.0という配布区分を含め、TabFMの概要を日本語で伝えるニュース記事。
【関連記事】
Google Research、時系列予測を変革する「TimesFM」モデル発表 TabFMの発想の元となった、同じGoogleの「ゼロショット」時系列基盤モデル。今回の記事の系譜を理解する出発点として最適。
BigQuery AIで変わるデータ分析・自動化最前線 TabFMが統合される先のBigQuery AI。SQLだけで機械学習や予測を回す文脈を、実例とともに押さえられる。
未来を読む鍵:XGBoost活用で時系列予測がビジネス戦略を変革 TabFMが置き換えを狙う従来手法XGBoostの解説。特徴量エンジニアリングやチューニングの手間を具体的に理解できる。
Snowflake Arctic-Text2SQL-R1が実現する実行保証型AIの新時代 「SQLで高度な処理を民主化する」潮流の隣接事例。監査可能性や規制対応という論点はTabFMのリスク議論とも重なる。
【編集部後記】
「モデルを作る」から「モデルを呼び出す」へ。TabFMが指し示しているのは、そんな時代の入り口です。もし手元に表計算のデータがあるなら、「この列から、あの値を予測できたら」と一度想像してみてください。かつては専門家に頼むしかなかったその一歩が、SQLをひとこと書く距離にまで近づこうとしています。
ただ、答えがすぐ返るということは、その答えを鵜呑みにしやすいということでもあります。なぜその予測になったのかを確かめないまま、与信や採用のような重い判断に使ってしまえば、便利さはそのままリスクに変わります。手軽さと、立ち止まって疑う目。この両方を持てるかどうかが、これから問われていくのだと思います。
みなさんの現場では、どんな予測が生まれるでしょうか。そして、その予測をどこまで信じ、どこで自分の判断を挟むでしょうか。答えの出ていない問いですが、一緒に考えながら見つめていきたいテーマです。












