Tencent Hunyuan「Hy-MT2」公開、33言語対応の翻訳特化AIが440MBでスマホ動作へ

「スマートフォン1台で、33言語の高品質翻訳がオフラインで動く」——そんな未来が、ぐっと現実味を帯びてきました。中国Tencent傘下のHunyuanチームが2026年5月21日、翻訳に特化した新しいAIモデルファミリー「Hy-MT2」を公開。1.8B・7B・30B-A3B(MoE)という3サイズ展開で、最小モデルはわずか440MB。Microsoft TranslatorやByteDanceの豆包(Doubao)といった商用翻訳APIを、自社評価ながら総合的に上回ったとされます。今回はその技術的なポイントと、私たちの翻訳体験がどう変わりうるのかを、じっくり掘り下げていきます。


Tencent Hunyuanは2026年5月21日、マルチリンガル翻訳モデルファミリー「Hy-MT2」のモデル重みとコードをHuggingFaceおよびModelScopeで公開しました。同時に、翻訳における指示追従能力を評価するベンチマーク「IFMTBench」も公開されています。Hy-MT2は1.8B、7B、30B-A3B(MoE)の3サイズで構成され、Tencentの公式表記では33言語間の翻訳に対応(対応一覧には繁体字中国語・広東語・チベット語・ウイグル語などの方言・少数民族言語を含む)。オンデバイス展開向けにはAngelSlimによる1.25ビット量子化で1.8Bモデルのストレージ要件を440MBまで削減し、推論速度を1.5倍に高めたとされます。

Tencentの公表ベンチマークでは、7Bおよび30B-A3Bは高速思考モードにおいてDeepSeek-V4-ProやKimi K2.6を上回り、1.8BモデルはMicrosoftや豆包(Doubao)の商用APIを総合的に上回ったと報告されています。Tencent HyはWMT26の動画字幕翻訳タスクと公式に提携しています。

From: 文献リンクGitHub – Tencent-Hunyuan/Hy-MT2

【編集部解説】

このニュースを読み解くうえでまず押さえておきたいのが、Hy-MT2が「汎用LLMに翻訳もさせる」のではなく、最初から翻訳タスクに特化して設計された専用モデルだという点です。汎用モデルが巨大化の一途をたどるなか、Tencent Hunyuanはあえて領域を絞り、軽量かつ高品質という別の軸で勝負を仕掛けてきました。

ラインナップは1.8B、7B、30B-A3Bの3サイズです。末尾の「30B-A3B」はMoE(Mixture of Experts、混合エキスパート)構造を示しており、一般的な命名規則(Qwen等でも採用)では「総パラメータ約30B、推論時にアクティブとなるのは約3B」を意味します。推論コストを抑えつつ大規模モデルの表現力を確保する、近年主流になりつつあるアーキテクチャです。

注目すべきは「fast-thinking(高速思考)モード」というキーワードです。長い思考連鎖(Chain-of-Thought)を生成してから回答する推論型モデルとは逆のアプローチで、翻訳のような即時応答が求められるタスクには本来こちらの設計のほうが理にかなっています。Tencentの公表ベンチマークで同モードでDeepSeek-V4-ProやKimi K2.6を上回ったとされる点は、巨大推論モデル一辺倒の流れに一石を投じるものといえるでしょう。ただし、これらの数値は現時点ではTencent側の自社評価であり、第三者による独立した再現検証はこれからである点には留意が必要です。

技術的なハイライトは、AngelSlimによる1.25ビット量子化です。通常のLLMは16ビットや8ビットで重みを保持しますが、1.25ビットというのは極限的な圧縮手法に分類されます。AngelSlim側の説明によれば、4つの重みのうち3つを{-1, +1}の1ビットで表現し、残りの1つをゼロ化したうえで全体を5ビットに詰め込むことで、平均1.25ビット幅を実現しているとされます。これにより1.8Bモデルがわずか440MBまで縮み、スマートフォン単体でのオフライン翻訳が現実的な射程に入ってきます(Tencent/AngelSlim側の主張。機種別の速度・メモリ実測は第三者検証待ち)。

オンデバイス翻訳の実現は、単なる利便性の話にとどまりません。会議資料、医療カルテ、法務契約書など、クラウドに送信しづらい機密文書の翻訳ニーズは多く存在します。ネットワーク遮断環境(航空機内、海外出張先、医療現場)でも高品質な翻訳が動くという点は、プライバシー保護と業務継続性の両面で大きな価値を生みます。

同時にリリースされた「IFMTBench」も見逃せません。これは「翻訳における指示追従能力」を評価する新しいベンチマークです。「専門用語集に従って訳す」「指定スタイル(フォーマル/カジュアル)で訳す」「JSONなどの構造を保ったまま訳す」といった、実務で頻発する複雑な要求にモデルがどこまで応えられるかを測定します。READMEに掲載されている7種類のプロンプトテンプレート(Default、Terminology、Style、Personalization、Delimiters、Structured Data 1/2)は、まさにそうした実務シナリオを意識した設計です。

日本の読者にとってのインパクトを考えると、対応言語に日本語が含まれていることはもちろん、商用APIであるMicrosoftや豆包(Doubao)を1.8Bモデルで上回ったというTencent側の主張は重みを持ちます。これまでDeepLやGoogle翻訳、ChatGPT経由の翻訳に依存してきた業務フローに、自社サーバー内で動かせる選択肢が加わる意味は小さくありません。

一方で、留意点もあります。本リリースはGitHub公開からまだ日が浅く、第三者による独立検証はこれからです。また、GitHub上のライセンス表示は現時点で「Unknown」となっており、商用利用や再配布の条件はライセンス本文を個別に精査する必要があります。実際、海外メディアの一部では、本モデルの位置づけや前世代「HY-MT1.5」との関係について解釈の揺れも見られます。読者の皆さんが業務導入を検討される際は、ベンチマーク数値を鵜呑みにせず、自社ドメインのデータで実評価することをおすすめします。

長期的な視点で見ると、これは「翻訳の民主化」がさらに一段進む可能性を示した出来事として記憶されるかもしれません。母国語の異なる人々が、追加コストなく、プライバシーを守ったまま、即座にコミュニケーションできる世界。そのインフラがクラウド企業の独占から離れ、誰でも手元のデバイスに持ち運べる時代へ。Tencentがあえて専用モデルという「狭くて深い」アプローチを選んだ理由は、ここにあるのではないでしょうか。

【用語解説】

MoE(Mixture of Experts/混合エキスパート)
複数の「専門家ネットワーク(エキスパート)」を内部に持ち、入力に応じて一部のエキスパートのみを動かす仕組み。Hy-MT2の「30B-A3B」という命名は、一般的な命名規則では総パラメータ30Bのうち推論時に約3Bしか活性化しないことを示すと解釈される。巨大モデルの表現力と、軽量モデルの推論速度を両立させる現代LLMの主流アーキテクチャだ。

fast-thinking(高速思考)モード
推論モデルが採用する「長い思考連鎖を経て回答する」reasoningモードと対をなす概念。思考過程を簡略化し即時応答を返す方式で、翻訳のようにレイテンシが重視されるタスクに適する。

1.25ビット量子化
モデルの重みを平均1.25ビット相当まで圧縮する極限手法。AngelSlimが採用するSherryフレームワークでは、4つの重みのうち3つを{-1, +1}の1ビットで表し、1つをゼロ化したうえで全体を5ビットに詰め込む「3:4スパース性+5ビットパッキング」方式で平均1.25ビット幅を実現する。一般的なFP16(16ビット)と比べ十数倍の圧縮率となる。

IFMTBench
Hy-MT2と同時公開された新しい評価ベンチマーク。名称は翻訳における指示追従(Instruction-Following Machine Translation)能力を測る意図を示すと推測される。単なる翻訳精度ではなく「用語集の遵守」「指定スタイルでの訳出」「構造保持」など、実務翻訳で頻発する複雑な指示にモデルがどこまで従えるかを測定する。

WMT(Workshop on Machine Translation)
機械翻訳分野の主要な国際的学術ワークショップ・コンペティション。WMT26はEMNLP 2026のThe Eleventh Conference on Machine Translationとして開催される予定で、上位入賞は機械翻訳技術の世界水準を示す指標として広く認知されている。

GGUF
llama.cppプロジェクトが採用する量子化モデルの汎用ファイル形式。一般的なゲーミングPCやMacでもLLMを動作させられるため、ローカルAI普及の事実上の標準フォーマットとなっている。

FP8量子化
浮動小数点を8ビットで表現する量子化方式。精度を大きく落とさずに推論速度とメモリ効率を高められるため、GPUサーバー上での実運用で広く採用されている。

【参考リンク】

Tencent-Hunyuan/Hy-MT2(GitHubリポジトリ)(外部)
Hy-MT2の公式リポジトリ。README、技術レポート、推論サンプルコード、IFMTBenchがまとめられている一次情報源。

Hy-MT2-1.8B(Hugging Face)(外部)
Tencent公式のHy-MT2モデル配布ページ。同URLパターンで7B・30B-A3B版や量子化版もダウンロード可能。

AngelSlim/Hy-MT1.5-1.8B-1.25bit(Hugging Face)(外部)
AngelSlim公式の1.25ビット量子化版モデルカード。オンデバイス翻訳の動作要件や量子化方式の詳細が確認できる。

Hy-MT2 Collection(ModelScope)(外部)
AlibabaクラウドのAIモデル配布プラットフォーム上のHy-MT2コレクション。中国国内ユーザー向けの主要ダウンロード経路。

AngelSlim(GitHub)(外部)
Hy-MT2の1.25ビット量子化に用いられたTencent製モデル圧縮ツールキット。投機的サンプリング等にも対応する。

Tencent AI Studio(公式LLMポータル)(外部)
Tencent Hunyuan系LLMの公式紹介サイト。Hy-MT2を含むTencent製モデル群の位置づけと用途を確認できる。

WMT26 General Translation Task(外部)
WMT26の一般機械翻訳タスク公式ページ。参加要綱、評価対象言語ペア、スケジュール等を掲載。

WMT26 Video Subtitle Translation Task(外部)
Tencent Hyが公式提携する動画字幕翻訳タスクの公式ページ。動画コンテンツのグローバル展開に直結する評価軸。

DeepSeek公式サイト(外部)
Hy-MT2の比較対象とされた「DeepSeek-V4-Pro」の開発元。中国発の高性能オープンソースLLMで知られる。

Kimi API Platform(Moonshot AI)(外部)
比較対象「Kimi K2.6」を提供するMoonshot AIのAPIプラットフォーム。最新Kimiモデルの仕様・料金体系が掲載されている。

Microsoft Translator(外部)
Hy-MT2の比較対象となった商用翻訳API。Office製品群やAzureに統合されている多言語翻訳サービス。

豆包(Doubao)(外部)
ByteDance傘下の生成AIアシスタント「豆包」の公式サイト。中国国内シェアの高い商用LLMサービス。

llama.cpp(GitHub)(外部)
GGUF形式モデルの推論エンジン。Hy-MT2のGGUF版を手元のPCやスマートフォンで動かす際の標準ランタイム。

【参考記事】

Tencent Hy-MT2 proves specialized AI models have edge(外部)
Startup Fortune誌の解説記事。Tencentが翻訳特化型・スマートフォンでのオフライン動作という独自路線で勝負していると分析している。

Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization(arXiv)(外部)
AngelSlimの1.25ビット量子化技術の基礎となるSherryフレームワークの論文。3:4スパース性と5ビットパッキングによる極限量子化の手法を解説。

tencent/Hy-MT1.5-1.8B-1.25bit(Hugging Faceモデルカード)(外部)
前世代Hy-MT1.5の1.25ビット量子化版モデルカード。量子化技術SherryのACL 2026採択、33言語+5方言対応を確認した。

HY-MT1.5 Technical Report(arXiv)(外部)
Hy-MT2が公式に引用するHY-MT1.5の技術レポート。MT特化事前学習・SFT・オンポリシー蒸留・強化学習を統合した訓練パイプラインを解説。

Tencent Hunyuan HY-MT 1.5: 33-Language Translation Model(外部)
StableLearn誌によるHy-MT1.5の解説記事。1.8Bモデルが7Bモデルとほぼ同等の翻訳品質を達成している点を強調している。

DeepSeek V4 Preview Release(DeepSeek API Docs)(外部)
比較対象「DeepSeek-V4-Pro」の公式ドキュメント。モデルの公開時期と基本仕様を確認するための一次情報。

【関連記事】

テンセント混元、翻訳モデル1.5をオープンソース化。1GBメモリで商用API超え(内部)
今回のHy-MT2の前世代にあたるHY-MT1.5の解説記事。2025年末時点のスペックや評価を確認できる。

Tencent「Hunyuan MT 7B」がGoogle Translateを上回る性能でオープンソース化|WMT2025で30言語ペア首位獲得(内部)
Hunyuan翻訳モデルシリーズ初代の解説記事。WMT2025で30言語ペア首位を獲得した出発点を振り返れる。

Tencent Hunyuan 2.0:406B MoEモデルが数学推論とAgentic Codingを加速する理由(内部)
同社の汎用大規模言語モデルHunyuan 2.0の解説記事。Tencent Hunyuanのモデル戦略を俯瞰する補完情報。

【編集部後記】

スマートフォン1台で、機密文書もオフラインで高品質に翻訳できる時代がもうそこまで来ています。皆さんは普段、どんな場面で翻訳ツールを使っていますか。

仕事の資料、海外サイトの記事、家族の海外旅行先での会話——用途によって「クラウド翻訳でいいもの」と「手元で完結させたいもの」の線引きは、人それぞれだと思います。Hy-MT2のようなオンデバイス翻訳が当たり前になったとき、皆さんなら何に使ってみたいでしょうか。一緒に未来の使い方を考えていけたら嬉しいです。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。