シャープ、CE-LLMの一部として心地よいAI会話技術を開発|AQUOS AIへ応用、LLM-as-a-judgeで応答を自動評価

AIとの会話、「賢いかどうか」は測れても、「心地よいかどうか」はどう測ればいいのでしょうか。シャープが挑んだのは、まさにこの言葉にしづらい問いでした。同社は、AIの応答の「好ましさ」を29もの項目に分解し、別のAIがそれを採点する仕組みを開発。テレビ「AQUOS」の新AIサービスに応用し、実際に会話の質が上がったといいます。家電が「話し相手」になっていくこれからの時代に、その会話の良し悪しを誰がどう決めるのか——。私たちとAIの距離を考えるうえで見逃せない発表です。


シャープは2026年6月2日、AIの応答内容を自動評価するシステムにより、心地よいAI会話技術を開発したと発表した。従来、AI会話応答の評価は主観評価で、時間や評価者ごとのばらつき、統一基準の不在といった課題があった。シャープは会話に関する先行研究を調査し、「即応性」「文脈理解」「知識力」など会話の「好ましさ」に影響する項目を抽出・体系化、定量的に測定できる評価基準を構築した。

応答内容は別のLLMで評価する「LLM-as-a-judge」により短時間で評価する。本技術はシャープ独自のAI技術CE-LLMの一部である。第1弾として9項目を評価するシステムを開発し、2026年5月発表のテレビ「AQUOS」向けサービス「AQUOS AI」に応用、評価値の向上を確認した。評価基準の詳細は2026年6月8日から12日までGメッセ群馬およびオンラインで開催の「2026年度 人工知能学会全国大会」で発表予定である。

From: 文献リンク人に寄り添う心地よいAI会話技術を開発|ニュースリリース:シャープ

シャープ株式会社公式プレスリリースより引用

【編集部解説】

シャープが今回発表したのは、「会話の上手なAI」そのものではなく、「AIの会話の上手さを採点する仕組み」です。ここが最大のポイントになります。新しいモデルを作ったというより、モデルを鍛えるための“物差し”を作った、と捉えると理解しやすいでしょう。

なぜ物差しが必要なのか。これまでAIの返答が「感じがいいか」を測るのは、人間が一つひとつ読んで主観で判断するしかありませんでした。手間と時間がかかるうえ、採点者によってブレも生じます。シャープはここに、別のLLMが応答を採点する「LLM-as-a-judge(ジャッジとしてのLLM)」という手法を持ち込みました。

この手法自体は、シャープの発明ではありません。MT-BenchやChatbot Arenaといった著名な評価基盤で広く使われてきた、AI業界では確立されつつあるアプローチです。シャープの独自性は、手法そのものではなく、何を測るかの設計にあります。

同社は会話の「好ましさ」を、「基本要因」と「ユーザー依存要因」の大きく2系統、計29項目(別表の指標数)に分解しました。即応性、文脈理解、知識力、適応性、個性・一貫性、さらには共感性やユーモア、創造性まで。普段なんとなく「話しやすい」と感じる会話の正体を、採点可能な要素へ腑分けした点が興味深いところです。

注目したいのは、第1弾で評価対象とした9項目の選び方です。「会話テーマや数ターン記憶」「代名詞の指示対象理解」「ペルソナ維持」「発言矛盾の防止」など、9項目はすべて基本要因の側にあります。一方、ユーモアや共感性、創造性といった、いかにも「人間らしさ」を演出しそうな要素は、まだ評価の対象外です。まずは破綻しない会話の土台を固める、という堅実な順序が読み取れます。

この技術はすでに具体的な製品に結びついています。同社は2026年5月14日にテレビ「AQUOS」向けの新サービス「AQUOS AI」を発表し、5月23日から提供を開始しました。大画面のAIキャラクターと会話できるサービスで、トーク機能は月50回までの無料プランのほか、月額495円・1,980円の有料プランが用意されています。今回の評価システムをこのAQUOS AIの開発に応用したところ、応答内容の評価値が向上した、というのがニュースの実利的な核心です。

背景にあるのは、シャープ独自のエッジAI「CE-LLM(Communication Edge – Large Language Model)」です。端末側で高速に一次応答を返し、必要に応じてクラウドAIを併用するハイブリッド構成が特徴で、すでに対話キャラクター「ポケとも」や議事録ツールにも採用されています。今回の会話技術は、このCE-LLMの一部として位置づけられています。

技術が読者の生活に与える影響を考えてみます。テレビや小型ロボットといった身近な家電が「対話する相手」へと変わるとき、その会話の質を企業が定量的に管理できることの意味は小さくありません。これまで「なんとなく良くなった」で済まされていた改善が、数値で追える開発サイクルに乗ります。家電とのやり取りが快適になっていく速度は、おそらく上がっていくでしょう。

一方で、見落とせない論点もあります。「好ましさ」を誰がどう定義するか、という問いです。採点項目の設計には、必ず作り手の価値観が入り込みます。「ポジティブ語彙の比率」を高く評価する設計は、裏を返せば、AIに前向きな話し方を促す方向へ最適化していくということです。それが心地よさにつながる場面は多いでしょうが、ユーザーにとって本当に必要な率直さや「わからない」という正直さが、心地よさの陰で薄まらないか——シャープが評価項目に「『わからない』と正直に答える」をきちんと含めている点は、その懸念への一つの回答とも読めます。

さらに技術的な留意点として、LLM-as-a-judge自体が万能ではないことも押さえておくべきでしょう。学術研究では、採点役のLLMに位置バイアスや冗長な回答を高く評価する傾向、さらには自分と似た文体を好む自己選好バイアスなど、複数の系統的な偏りがあることが繰り返し指摘されています。採点者を機械に置き換えても、その採点者自身の偏りは残ります。シャープの仕組みがこうした偏りをどう抑えているかは、現時点のリリースからは読み取れず、今後の説明が待たれる部分です。

その答え合わせの場が、まもなく訪れます。同社は体系化した評価基準の詳細を、2026年6月8日から12日まで群馬県高崎市のGメッセ群馬およびオンラインで開かれる「2026年度 人工知能学会全国大会」で発表する予定です。プレスリリースの一段上、学術コミュニティの検証にさらすという姿勢は、この技術の信頼性を測るうえで重要なシグナルになり得ます。

長期的に見れば、これは「AIの良し悪しを測る基準づくり」という、より大きな潮流の一部だと考えられます。生成AIが社会のあらゆる接点に入り込むほど、その品質を客観的に評価する物差しの価値は高まります。家電メーカーであるシャープが、製品開発の現場発でこの物差しづくりに踏み込んだこと自体に、時代の変わり目が表れているように思います。

【用語解説】

CE-LLM(Communication Edge – Large Language Model)
シャープが独自に開発するエッジAI技術。スマートフォンや家電などの端末側で高速に一次応答を返し、複雑な処理が必要なときだけクラウドAIを併用するハイブリッド構成が特徴。会話の「間(ま)」を減らし、自然なやり取りを実現することを目指している。

エッジAI
クラウドのサーバーではなく、端末(デバイス)そのものでAI処理をおこなう技術。処理内容によっては外部へのデータ送信を抑えやすく、応答の低遅延化やプライバシー面で利点があるとされる。ただしCE-LLMのように、必要に応じてクラウドAIを併用する構成も多い。

LLM-as-a-judge(ジャッジとしてのLLM)
あるAI(LLM)が生成した応答内容を、別のLLMが採点・評価する手法。人手による主観評価に比べて短時間で大量に評価でき、評価のばらつきを抑えられる。AI開発の現場で広く使われつつあるが、採点役のLLM自身がもつ偏りが課題として指摘されている。

ペルソナ
AIに設定された人格や役割、キャラクター像のこと。会話の途中で口調や立場がぶれず、一貫した「人となり」を保てているかが、会話の自然さを左右する。

フィラー
「えーと」「あの」など、考えている最中であることを相手に伝えるつなぎの言葉。人間の会話では沈黙を埋め、間合いを和らげる役割を持つ。

【参考リンク】

AQUOS AI(シャープ サービス公式サイト)(外部)
本技術を応用したテレビ「AQUOS」向けサービスの公式ページ。会話機能やプランを紹介している。

テレビ向け「AQUOS AI」サービスの提供を開始(シャープ)(外部)
AQUOS AIを発表した5月14日のリリース。共感知性・探索知性など設計思想を説明している。

シャープ株式会社 コーポレートサイト(外部)
発表元シャープの企業公式サイト。経営方針やニュースリリース一覧などを掲載している。

JSAI2026 – 2026年度 人工知能学会全国大会(第40回)(外部)
シャープが評価基準を発表する学会の公式サイト。Gメッセ群馬とオンラインで6月8〜12日開催。

【参考記事】

Can You Trust LLM Judgments? Reliability of LLM-as-a-Judge(外部)
単一出力は確率分布の一サンプルにすぎず、「固定されたランダム性」で評価が不安定になると指摘した研究。

LLM-as-a-Judge vs Human Evaluation(Galileo)(外部)
93%のチームが一貫性・コスト・バイアスに直面と報告。3モデル合議で高精度が出ると紹介する解説。

The Silent Judge: Unacknowledged Shortcut Bias in LLM-as-a-Judge(外部)
採点役のLLMに位置・冗長性バイアスがあり自覚なく偏ると報告したNeurIPS 2025ワークショップ論文。

Beyond Consensus: Mitigating the Agreeableness Bias in LLM Judge Evaluations(外部)
正答は96%超見抜くが誤答は25%未満しか見抜けず、信頼性が過大評価されやすいと実証した研究。

Judging the Judges: Bias Mitigation Strategies in LLM-as-a-Judge Pipelines(外部)
5つの採点モデルと複数ベンチで9種のバイアス低減策を体系的に比較した実証研究。

【関連記事】

シャープ「AQUOS AI」5月23日提供開始、テレビで等身大AIキャラと会話する新時代へ
本記事の評価技術が応用されたサービス本体の発表。今回の技術の「応用先」を知れる前提記事。

シャープ「ポケとも」手のひらサイズの感情AI—スマホとロボットが紡ぐ新しい関係性
同じCE-LLMを搭載した対話キャラクター。製品と、その土台となる会話評価技術の関係が見える。

シャープがエッジAI議事録ツールに翻訳機能追加、クラウドレスで機密情報を守る
CE-LLMのB2B応用例。今回のB2C向け会話技術と合わせ、多面展開の広がりを示す一本。

【編集部後記】

家電が「話し相手」になっていく時代、私たちはつい「どれだけ賢く答えるか」に目が向きがちです。でも今回シャープが挑んだのは、「その会話、心地よかった?」という、もっと感覚的で、言葉にしづらい部分でした。

みなさんは、AIとの会話のどんな瞬間に「いいな」と感じますか。逆に、正確だけれど少し冷たいと感じた経験はないでしょうか。「好ましさ」を測る物差しの話は、私たち自身が会話に何を求めているのかを映す鏡でもあります。もしよければ、ご自身の答えを少し探ってみてください。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。