OpenBuddy・M5Stackで作るAIデスクペット、Claude Code連携で「話す相棒」に

[更新]2026年6月4日

Googleで優先するソースとして追加するボタン

AIエージェントは、いまや画面の中だけの存在ではありません。OpenBuddyは、M5StackのESP32-S3デバイス上で動く、Claude Code連携の音声対話型デスクペットです。マイクで聞き取り、AIが考え、スピーカーで返す——その一連の流れを、ElevenLabsやQwenといった既存のクラウドサービスを組み合わせて実現しています。大企業の製品を待たず、個人が好奇心だけでAIハードウェアを作り上げた、注目すべき事例を読み解きます。


OpenBuddyは、lennonkc氏(Kuncheng Li氏)が公開した、M5Stack ESP32-S3デバイス上に構築されるClaude Code連携のデスクペットシステムです。

ライセンスはMITで、対応OSはmacOS、Python 3.11以上とReact 19を使用します。聞く、考える、話すという音声インタラクションを担い、idle、listening、thinking、speaking、error、disconnectedの6つのアニメーション状態を持ちます。対応ハードウェアはCardputerとStopWatchの2種類で、Cardputerは1.14インチST7789 LCDとフラッシュ8MB、StopWatchは円形AMOLEDとフラッシュ16MBを備えます。

構成はESP32ファームウェア、Pythonバックエンド(FastAPI)、React WebUIの3層で、WebSocketで接続されます。音声パイプラインはSTTにElevenLabs Scribe v2、TTSにElevenLabs v3、テキスト処理にQwenを用います。GitHubのスター数は51です。

From: 文献リンクlennonkc/openbuddy – GitHub

lennonkc GitHubより引用

【編集部解説】

今回ご紹介する「OpenBuddy」は、lennonkc氏(Kuncheng Li氏)が個人で開発し、MITライセンスで公開したオープンソースプロジェクトです。理解を深めるうえで、まずこのプロジェクトが生まれた背景を押さえておく必要があります。

2026年4月、AnthropicはGitHub上で「claude-desktop-buddy」というリポジトリを公開し、Claudeデスクトップアプリ向けのBluetooth APIをメイカー(個人開発者)コミュニティに向けて開放しました。これは公式製品ではなく、MITライセンスのもとで「いじって遊ぶ」開発者に向けて提供されたものです。公式のリファレンス機(最初の対応ボード)には、深圳のM5Stack社が手がけるESP32ベースの「M5StickC Plus」が指定されました。

ここが肝心な点です。Anthropic公式のDesktop Buddyは、Bluetooth Low Energy(BLE)を介してPCと接続し、Claudeのセッション状況や承認待ちの状態を表示し、デバイス上のボタンで操作の許可・拒否を返す——いわば「Claudeの作業を見守り、ハンコを押すための物理端末」でした。音声で会話する機能は、公式版にはありません。

これに対し、本日取り上げるOpenBuddyは、同じ「デスクペット」という発想を引き継ぎながら、まったく別の道を選んでいます。BLEではなくWiFi上のWebSocketで通信し、独自に「マイク → 音声認識(STT)→ AIエージェント → 音声合成(TTS)→ スピーカー」という一連の音声対話パイプラインを実装しているのです。つまりOpenBuddyは、公式版が担う「見守りと承認」を超えて、「話しかけて、会話する相手」を目指した派生形と言えます。

技術的に注目したいのは、その構成の素直さです。音声認識と音声合成にはElevenLabs、テキストの整形にはQwen、頭脳となるエージェントにはClaude Codeを組み合わせ、それらをPythonのサーバーが束ねます。既存のクラウドサービスを組み合わせて一つの体験に仕立てる——この発想は、ハードウェアに不慣れな開発者でも手を出しやすい設計になっています。1台のサーバーでCardputerと、円形AMOLEDを備えるStopWatch(公式仕様では1.75インチ)の2機種を同時に動かせる点も、実用性への配慮がうかがえます。

この技術によって何ができるようになるのか。最大の意義は、AIエージェントが「画面の中の存在」から「机の上の存在」へと一歩踏み出すことです。キーボードやモニターから離れていても、声で指示を出し、声で結果を受け取る。AIとの接点が、より身体的で日常的なものへと変わっていく可能性を示しています。

一方で、見過ごせないリスクもあります。OpenBuddyの構成では、音声がElevenLabsやQwenといった複数の外部クラウドを経由します。これは、自分の発話内容が常にネットワークを通じて外部に送られることを意味します。皮肉なことに、Anthropic公式版が通信をローカルに閉じ、APIキーもインターネット接続も不要で、やり取りが速くプライベートに保たれることを売りにしていたのとは対照的な設計です。手軽さと引き換えに、プライバシーやAPI利用コストという課題を抱える構造になっている点は、導入を検討する際に冷静に見ておくべきところでしょう。

長期的な視点で見れば、このプロジェクトが象徴しているのは「AIハードウェアの民主化」です。AnthropicがAPIという土台を開放したことで、Clawdmeter(使用量モニター)や各種の移植版など、個人の手による多様な派生物が次々と生まれています。OpenBuddyもその一つであり、大企業の製品ロードマップを待たずとも、好奇心を持った個人が数千円のマイコンボードでAIの「器」を自作できる時代が到来したことを示しています。規制やプラットフォームのあり方が定まる前に、現場の作り手が先に走り出す——その熱量こそが、いま私たちがこのニュースを取り上げる理由です。

【用語解説】

ESP32-S3
Espressif Systems(楽鑫科技)が開発したマイコン(小型のコンピューターチップ)。WiFiとBluetoothを内蔵し、低価格で扱いやすいことから、IoT機器や電子工作の定番チップとして広く使われている。OpenBuddyの心臓部にあたる。

STT(音声認識)/TTS(音声合成)
STTはSpeech to Textの略で、人の話し声を文字データに変換する技術。TTSはText to Speechの略で、文字データを人工的な音声に変換する技術。両者を組み合わせることで、声で話しかけて声で返答を受け取る対話が成立する。

WebSocket
サーバーとクライアントの間で、双方向のデータを継続的にやり取りするための通信方式。一度接続を確立すると開いたままになるため、音声のようにリアルタイム性が求められる処理に向いている。OpenBuddyはこれで各機器を結んでいる。

BLE(Bluetooth Low Energy)
近距離無線通信規格Bluetoothのうち、消費電力を抑えた省エネ版を指す。Anthropic公式のClaude Desktop Buddyは、このBLEを使ってPCと通信する設計を採っている。

Nordic UART Service
BLE上で、シリアル通信(文字データの送受信)を模して扱うための仕組み。Anthropic公式版は、この仕組みの上で改行区切りのJSONデータをやり取りすることで、対応機器の自作を可能にしている。

Qwen
Alibaba Cloud(アリババクラウド)が開発した大規模言語モデル。OpenBuddyでは、音声認識した文章の整形(不要な言いよどみの除去など)に用いられている。

mDNS
IPアドレスを手動で設定しなくても、機器名(例:openbuddy.local)でネットワーク上の相手を見つけられるようにする技術。OpenBuddyの「設定不要」を支える要素の一つ。

【参考リンク】

claude-desktop-buddy(Anthropic公式 GitHub)(外部)
Anthropicが公開した公式リファレンス。BLE経由でデスクトップアプリと接続するデスクペットの原型。

M5Stack 公式ストア(外部)
CardputerやStopWatchなどのハードウェアを開発・販売する企業の公式オンラインストア。

M5Stack StopWatch 公式ドキュメント(外部)
対応機StopWatchの公式仕様書。1.75インチ円形AMOLEDや16MBフラッシュなどを確認できる。

ElevenLabs(Speech to Text)(外部)
OpenBuddyが音声認識・音声合成に採用しているサービスの公式ページ。

Espressif Systems 公式サイト(外部)
ESP32-S3チップを開発する半導体企業の公式サイト。Claude連携の発表も掲載されている。

Qwen(Alibaba Cloud)(外部)
OpenBuddyがテキスト整形に用いる大規模言語モデルQwenの提供元による公式情報ページ。

【参考記事】

Anthropic showcases Espressif’s ESP32-S3-based Hardware for Claude Desktop Integration(Espressif Systems)(外部)
Anthropicが「Build with Claude」でM5Stack Cardputerを紹介し、Bluetooth APIを開放したことを伝える公式発表。

Anthropic’s open-source Claude Desktop Buddy turns ESP32-S3 devices into interactive AI desk companions(CNX Software)(外部)
公式版の成り立ちや、リファレンス機が約30ドルであること、通信がローカル完結である点を報じている。

M5Stack StopWatch ESP32-S3 devkit offers 1.75-inch touch AMOLED(CNX Software)(外部)
対応機StopWatchの詳報。1.75インチ円形AMOLED、16MBフラッシュ、45ドルという仕様と価格を伝えている。

StopWatch(M5Stack公式ドキュメント/m5-docs)(外部)
StopWatchのディスプレイ寸法やESP32-S3R8搭載などを確認できる、メーカー自身による一次情報。

I tried Anthropic’s open-source desk pet on an ESP32(XDA Developers)(外部)
公式版が非公式・MITライセンスで、APIキー不要かつローカル完結である点を実機検証で確かめた記事。

Anthropic releases open-source BLE API for Claude desktop integration(Phemex News)(外部)
公開直後の速報。開発者モードやNordic UART Serviceを介した通信の仕組みを報じている。

【参考動画】

【関連記事】

Claude Codeにボイスモード搭載—Anthropic、「話して開発する」時代への一歩を踏み出す
Claude Code自身に音声入力が加わった動きを解説。OpenBuddyが目指す「声で話すAI」を本家側から捉え直せます。

OpenJarvis 登場、Ollama 対応のローカルファーストAI─スタンフォード発「Intelligence Per Watt」の挑戦
AIを手元で動かす「ローカルファースト」の試み。OpenBuddyのプライバシー論点と響き合う一本です。

あなたのデータを手放さないAI―ピューディパイが無料公開した「Odysseus」とは
個人が公開したデータ主権型AI。大企業を待たず作り手が動くという、本記事と同じ精神を共有します。

【編集部後記】

AIが画面の中から出て、机の上で声をかけてくれる——そんな未来は、もう数千円のマイコンボードと誰かの好奇心から始まっているのかもしれません。

OpenBuddyはソースコードが公開されているので、実はこれ、秋葉原で手に入るパーツでも近いものが作れてしまいます。マイクとスピーカーが一体になったM5Stack系のボードを土台に、音声まわりをクラウドへ任せれば、ハードルは思ったより低い。さらに3Dプリンターでボディを出力すれば、頭の中にある「理想のかたち」をそのまま机の上に宿せます。

サーボモーターを足せば、首を振ったり、転がって近づいてきたり——アニメで見たあの球体ロボットだって、もう手の届く工作の範囲に入ってきました。あなたなら、どんな体と、どんな声を持たせてみたいでしょうか。手軽さとプライバシー、その両方を天秤にかけながら、私たちと一緒に「AIに体を与える」楽しみを想像してみませんか。

Googleで優先するソースとして追加するボタン
投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!