NEC映像認識AI×LLMの軌跡——動画要約から「言語化されない危険」の検知へ、3年間のロードマップを読む

映像を見て、言葉にする——NECがこの一見シンプルなAI技術に取り組み始めてから、まもなく3年が経とうとしています。その間に技術はスポーツ中継から小売店舗、そして安全運転指導へと適用領域を広げ、ついには「誰も言語化していなかった危険の予兆」を映像から検出する段階に到達しました。この記事では、NEC映像認識AI×LLM技術の3年間のロードマップを俯瞰し、その到達点と、この先に見えるものを読み解きます。

NECは2026年3月19日、AIおよびLLMを活用した映像分析において、明文化されていない危険の予兆を捉え、改善アドバイスを自動生成する技術を世界で初めて開発したと発表した。VLM（視覚言語モデル）を採用し、事前学習なしに導入できる設計で、物流・製造現場への2026年度中の実用化を目指す。本発表の詳報はこちらの記事をご覧いただきたい。本記事では、この技術に至るまでのNEC映像認識AI×LLM技術の3年間の軌跡を俯瞰する。

From: NEC、明文化されていない危険の予兆をAIで捉え、改善アドバイスを自動生成する技術を世界で初めて開発

【訂正（2026年3月26日）】初出時のタイトルおよび一部表現において、ソースであるNECプレスリリース（2026年3月19日付）で使用されていない「暗黙知」という用語が、NECの発表表現であるかのように記載されていたため訂正しました。訂正理由：NECは当該リリースで「明文化されていない危険の予兆」と表現しており、「暗黙知」はNECの用語ではなく編集部による概念的解釈であったため。お詫びして訂正いたします。

【編集部注（2026年3月26日）】本記事が扱うNECの発表（2026年3月19日付）について、2名のライターがそれぞれの視点から記事を制作し、いずれも公開に至りました（ライター・TaTsuの記事（3月24日公開）／本記事・ライター・Ami（3月26日公開））。しかし、一つのプレスリリースに対して二つの解釈記事を併存させることはinnovaTopiaの編集方針として適切ではないと判断し、ライター・TaTsuの記事を当該発表の報道記事として残したうえで、本記事はNECの映像認識AI×LLM技術の全体像を俯瞰するロードマップ記事へと大幅に改稿しました。

【編集部解説】

2023年12月——「映像を言葉にする」技術の誕生

NECの映像認識AI×LLM技術の起点は、2023年12月5日に発表された「動画から説明文章を自動生成する技術」にあります。

この技術が実現したのは、100以上の映像認識AIエンジンを並列に稼働させ、映像内の人物・車両・建物・天候などを個別に認識し、その認識結果をLLMに渡して自然言語の文章に変換するというフレームワークです。1時間超の動画から数秒で説明文を生成でき、ドライブレコーダー動画に適用した検証では事故報告書の作成時間を半減できることが確認されました。

ポイントは、映像認識AIとLLMの「役割分担」です。映像の「目」にあたる部分は従来型のAIエンジン群が担い、「言葉にする」部分をLLMが担う。この分離構造こそが、以降の技術進化を支える基盤になりました。

2024年9月——エンタメの現場で「リアルタイム」を獲得

次の転機は、2024年9月の井上尚弥選手のボクシング世界タイトルマッチでの実証実験です。NECは映像認識AI×LLMを用いて、試合映像からハイライトシーンを自動抽出し、リアルタイムでSNS配信するという実証を行いました。

報告書作成のように事後的に映像を分析するのではなく、ライブ映像をリアルタイムで処理する——これは技術的な要求水準が一段上がることを意味します。しかもエンタメという、映像内容の「面白さ」や「盛り上がり」を判断しなければならない領域です。この実証は、NECの映像認識AI×LLM技術が安全管理の枠を超え、より広い応用可能性を持つことを示した最初の事例でした。

2025年8月——cotomi Act、「暗黙知」を正面から扱う

2025年8月27日に発表されたエージェント技術「cotomi Act」は、今回のロードマップの中でも特異な位置にあります。

cotomi Actは映像認識AI×LLMの系譜とは異なる技術です。こちらはWebブラウザ上の操作履歴やログから、ベテラン社員が持つ暗黙知を自動抽出・形式知化する技術であり、映像ではなく「操作行動」を入力としています。Webエージェントの国際ベンチマーク「WebArena」において、人間のタスク成功率78.2%を上回る80.4%を世界で初めて記録したことでも注目されました。

ここが、今回のロードマップを読むうえで最も重要な交差点です。

cotomi Actが扱うのは「Web上の業務行動に埋め込まれた暗黙知」、今回の映像認識AI技術が扱うのは「現場映像に映り込んだ、明文化されていない危険の予兆」。入力データも技術的なアプローチもまったく異なりますが、両者が向いている方向は同じです——「人間が言語化できていない知識をAIが扱えるようにする」。

cotomi Actが「人はなぜそう操作するのか」を解き明かすなら、映像認識AI技術は「人はなぜそこで止まるのか、なぜそちらを見るのか」を読み解く。NECはテキスト行動と映像行動という二つの異なる入口から、暗黙知という同じ山に両側からトンネルを掘っている、と言えるかもしれません。

2025年10月——小売と物流、二つの現場実証

2025年10月は、二つの発表が集中しました。
一つ目は、ローソンとの店舗従業員行動分析の実証実験です（10月30日発表）。埼玉県の1店舗で10月27日から11月2日まで実施され、映像認識AIで従業員の作業を自動分類し、LLMが各作業の所要時間を文字化してレポートを自動生成するという内容です。ローソンが目指す「店舗作業30%削減」に向けた基礎データの取得を目的としていました。

二つ目は、安全運転支援サービス「くるみえ」へのAI機能追加（10月8日発表）です。ドライブレコーダー映像をAIで分析し、安全運転指導のアドバイスを自動生成する機能が追加されました。

この時点で、NECの映像認識AI×LLM技術の応用先は明確に拡大していました。エンタメ（ボクシング中継）→ 小売（ローソン店舗）→ 物流安全（くるみえ）。共通するのは「映像の中にある行動パターンを認識し、言語化する」という基本構造です。

2026年3月——「書かれていない危険」への到達

そして2026年3月19日の発表です。ここで技術は質的な転換を遂げています。
2023年の初発技術では、「映像の中の出来事を説明する」ことが目的でした。プロンプト（指示文）に沿って映像を解析し、該当するシーンを見つけ出す。これは高度ではあるものの、「探すべきもの」が事前に定義されている構造でした。

今回の技術は、プロンプトに明示されていないシーンまで自律的に検出します。NECはこれを「明文化されていない危険の予兆」と呼んでいますが、技術的にはVLMが映像全体の文脈を読み解き、潜在的なリスクを含むと判断した行動を自発的に抽出するという仕組みです。

「指示されたものを探す」から「指示されていないものを見つける」への転換。これは3年間のロードマップの中で最も大きな跳躍であり、ルールベースの検知とは本質的に異なる、生成AI時代ならではのアプローチです。

学術的な裏付け——AAAI 2026とWACV 2026

この技術進化は学術的にも裏付けられています。NECの研究チームは、AI分野の主要国際学会であるAAAI 2026で「Object-Centric Framework for Video Moment Retrieval」を、コンピュータビジョン応用の国際会議WACV 2026で「KFS-Bench: Comprehensive Evaluation of Key Frame Sampling in Long Video Understanding」を発表しています。

前者は映像内のオブジェクト間の関係性を解釈するフレームワーク、後者は長時間映像から効率的にキーフレームを抽出するサンプリング手法に関する研究です。いずれも、今回の「プロンプト非依存の予兆検出」を実現するための基盤要素技術であり、学会での採択はこれらの技術的アプローチの妥当性を第三者が評価したことを意味します。

この先に見えるもの

3年間の軌跡を一本の線でつなぐと、NECが描いているロードマップの方向性が浮かび上がります。

映像の「何が映っているか」を記述する技術（2023年） → リアルタイムで処理する能力の獲得（2024年） → 現場の実業務への適用と検証（2025年） → 人間が言語化できていない情報の自律的検出（2026年）。

映像を「受動的に要約する」技術が、「能動的に予兆を発見する」技術へと進化した。この延長線上にあるのは、映像から得られた知見を現場にフィードバックし、継続的に安全性や効率を改善し続ける自律的なループの実現でしょう。
一方、cotomi Actの系譜——Web行動からの暗黙知抽出——は、2025年12月にソリューション提供が始まり、2026年度中のサービス本格化を目指しています。

映像認識AI側も今回の発表で2026年度中の実用化を掲げています。二つの系譜が商用化のタイミングをほぼ同じくしていることは偶然ではないでしょう。

「人間が言語化できていない知識をAIが扱えるようにする」——NECがこのビジョンに対して、映像行動とテキスト行動という二つの入口から同時にアプローチしていることは、単一の技術発表を見ているだけでは気づきにくい構図です。今回の記事が、その全体像を掴む手がかりになれば幸いです。

ただし、実用化に向けてはいくつかの課題も見えています。映像による行動分析は、ローソンの実証でも明記されていたように、プライバシーへの配慮と従業員への十分な説明が不可欠です。

また、VLMが「プロンプトに書かれていない危険」を検出するということは、その判断基準がブラックボックスになりやすいという面も持ちます。AIが出した「改善アドバイス」を現場が鵜呑みにするのではなく、根拠映像とともに人間が最終判断を下す運用設計を徹底できるかどうか。技術の進化と同じ速度で、導入・運用の知見も積み上げる必要があるはずです。

【用語解説】

LLM（大規模言語モデル）
Large Language Modelの略。大量のテキストデータを学習した高度なAIモデルであり、自然言語の翻訳・要約・文章生成などを行う。ChatGPTやGeminiが代表例。数億から数千億のパラメータを持ち、文脈理解や推論が可能なため、近年は映像分析との組み合わせが急速に進んでいる。

VLM（視覚言語モデル）
Vision Language Modelの略。画像や動画などの視覚情報とテキストを同時に処理できるマルチモーダルAIモデル。「映像を見て、内容を言語で説明する」能力を持ち、事前に特定の映像データで学習させなくても多様な映像を認識できる汎用性が特長。今回の技術では、プロンプトに明示されていない危険の予兆まで自律的に検出する能力を実現している。

暗黙知
マニュアルや教本に言語化・文書化されていない、経験や直感に基づく知識・スキルのこと。熟練技術者が「なんとなく異変を感じる」という感覚がその典型だ。今回の技術が扱う「明文化されていない危険の予兆」は、この暗黙知の領域に属するものと考えられる。なお、NECは暗黙知そのものをAIで扱う技術として、Web上の業務行動から暗黙知を自動抽出・形式知化するエージェント技術「cotomi Act」を2025年8月に発表している（NEC プレスリリース 2025年8月27日）。

cotomi
NECが開発した生成AIのコア技術ブランド。名称は「こと」が「みのる」ようにという想いに由来する。LLM「cotomi」は日本語特化の高性能モデルとして政府のガバメントAI「源内」にも選定されている。映像認識AI技術やエージェント技術「cotomi Act」など、複数の技術群がcotomiブランドのもとに展開されている。

cotomi Act
NECが2025年8月に発表したエージェント技術。Webブラウザ上の操作履歴やログからベテラン社員の暗黙知を自動抽出・形式知化し、業務を自律的に実行する。Webエージェントの国際ベンチマーク「WebArena」で人間のタスク成功率78.2%を上回る80.4%を世界で初めて記録した。映像認識AI技術とはアプローチが異なるが、「人間が言語化できていない知識をAIが扱えるようにする」という共通のビジョンを持つ。

AAAI
The Association for the Advancement of Artificial Intelligenceが主催するAI分野の主要国際学会。AAAI 2026は第40回大会にあたる。NECは「Object-Centric Framework for Video Moment Retrieval」を発表した。

WACV
The IEEE/CVF Winter Conference on Applications of Computer Visionの略。コンピュータビジョンの応用研究に特化した国際会議。NECはWACV 2026で「KFS-Bench: Comprehensive Evaluation of Key Frame Sampling in Long Video Understanding」を発表した。

【参考リンク】

日本電気株式会社（NEC）公式サイト（外部）
1899年創業のIT・通信インフラ大手。映像認識AI・LLM・生体認証など幅広いAI技術を産業分野に展開している。

NEC プレスリリース：明文化されていない危険の予兆をAIで捉え、改善アドバイスを自動生成する技術を世界で初めて開発（2026年3月19日）（外部）
本記事が起点とする最新の発表。技術の詳細・適用領域・学術的背景が確認できる。

NEC プレスリリース：映像認識AI×LLMにより、動画から説明文章を自動生成する技術を世界で初めて開発（2023年12月5日）（外部）
本記事のロードマップの起点。100以上の映像認識AIエンジンとLLMの組み合わせによる記述的映像要約技術の原点。

NEC プレスリリース：井上尚弥選手のボクシング世界タイトルマッチでの実証実験（2024年9月5日）（外部）
映像認識AI×LLMのリアルタイム処理を初めてエンタメ領域に適用した実証。ラウンド間のインターバルでSNS配信を自動化した。

NEC プレスリリース：暗黙知をデータ化しWeb業務を自動化するエージェント技術「cotomi Act」を開発（2025年8月27日）（外部）
映像認識AIとは別系譜の暗黙知技術。WebArenaで世界初の人間超え（80.4%）を達成したAIエージェント技術の詳細。

NEC プレスリリース：ローソンとの店舗従業員行動分析実証実験（2025年10月30日）（外部）
映像認識AI×LLMの小売領域への適用。店舗作業の自動分類・定量化で30%削減を目指す実証の詳細。

NEC 安全運転支援サービス「くるみえ」（外部）
2007年リリースのNECテレマティクスサービス。2025年10月にAIによる安全運転指導アドバイス自動生成機能を追加した。

NEC Multimedia OLAP 映像認識AI×LLM サービスページ（外部）
長時間映像から短縮動画と説明文を自動生成するサービスの概要。2024年3月より有償PoCサービスとして提供されている。

AAAI 2026 公式サイト（外部）
第40回AAAI国際会議の公式サイト。NEC研究者らの論文が採択・発表されている。

WACV 2026 公式サイト（外部）
IEEE/CVF主催のコンピュータビジョン応用国際会議。NECの「KFS-Bench」論文が発表された場。

【参考動画】

https://www.nec.com/en/global/onlinetv/en/teches19.html
映像認識AIとLLMを組み合わせたドライビング解析技術のデモンストレーション（英語）。実際の走行シーンへのAI適用例を確認できる。

【参考記事】

Using Video Recognition AI x LLM to Automate the Creation of Reports（NEC Technical Journal）（外部）
映像認識AI×LLMによる記述的映像要約技術のフレームワークを詳解。100種以上のAIエンジンで数秒以内にシーン抽出が可能としている。本記事のロードマップの技術的基盤を理解するための一次資料。

Foundational Vision-LLM for AI Linkage and Orchestration（NEC Technical Journal）（外部）
NEC研究者によるVLM基盤アーキテクチャ論文。医療データセットで最大26%改善、予測誤りの最大20%修正を達成したと報告している。

NEC builds AI that flags hidden workplace hazards（Telecompaper）（外部）
NECの危険予兆検知AI技術を英語で報道。物流・製造分野での映像分析適用と2026年度の商用化目標を紹介している。

What Are Vision Language Models (VLMs)?（IBM）（外部）
IBMによるVLMの包括的な解説記事。VLMの仕組みや代表モデル・応用分野を網羅的に整理しており、本記事で登場する技術概念の理解を深められる。

From likes to liability: Navigating online conduct and privacy in Japan（Ius Laboris）（外部）
日本の職場における従業員モニタリングとAPPIの関係を解説。映像による行動分析を導入する際のプライバシー上の論点を整理した専門記事。

【関連記事】

NEC、”明文化されていない危険の予兆”をAIで映像検出—改善アドバイスを自動生成する技術を世界初開発

NECが映像認識AIとLLMで「明文化されていない危険の予兆」を映像から自律検出し、改善アドバイスを自動生成する技術を世界初開発。VLM採用で事前学習…

innovaTopia -（イノベトピア） – …

NEC「cotomi v3」、ガバメントAI選定——2年でGPT-4水準に達した国産LLMの実力

NECが開発するLLM「cotomi v3」が、デジタル庁の公募「ガバメントAIで試用する国内大規模言語モデル」に選定された。2023年v1から2年でGPT-4水準に到…

innovaTopia -（イノベトピア） – …

鴻池運輸が「生成AI活用プロジェクト」本格始動｜AIアンバサダー制度で現場主導の変革へ

鴻池運輸が2024年12月に発足した生成AI活用プロジェクトを本格始動。AIアンバサダー制度で現場主導のAI活用を推進し、2028年3月期までにユースケース1…

innovaTopia -（イノベトピア） – …

カラダが消える日——AIとXRが解体する「現実」の定義

2025年、XRとAIの融合が製造業の安全教育、医療現場の手術支援、企業研修で実際の成果を創出。VR労災教育による安全意識向上、Vision Proを活用した手…

innovaTopia -（イノベトピア） – …

東京大学・理化学研究所、日本語特化の医療AI「142億パラメータ」視覚言語モデルをオープン公開へ

東京大学と理化学研究所が142億パラメータの日本語特化医療AIを開発。クラウド不要のオンプレミス運用で患者データを院外に出さず、Chain-of-Thought…

innovaTopia -（イノベトピア） – …

【編集部後記】

一つの技術発表を追いかけるだけでは見えない景色があります。
3年間のリリースを並べてみると、NECが「映像を言葉にする」という一見シンプルな研究テーマを、どれほど粘り強く、着実に積み上げてきたかが浮かび上がります。報告書の自動作成から始まり、スポーツ中継、小売店舗の業務分析、安全運転指導、そして「誰も言語化していなかった危険の予兆」の検出へ。派手な発表の裏には、地道な実証と論文の蓄積がある——そういう技術開発のかたちを、この記事を通じてお伝えできていれば嬉しく思います。

読者のみなさんの現場にも、まだ言葉になっていない「知恵」や「予兆」が眠っているかもしれません。それがどんな形で可視化されていくのか——私たちも一緒に見つめていきたいと思っています。