Voicebox 音声AIは、Voiceboxは、音声クローン・音声生成・ディクテーションを一つにまとめたオープンソースのAI音声スタジオです。完全ローカル実行でMCPを内蔵し、Claude CodeやCursorと連携できます。
📖 この記事で分かること
- Voiceboxの正体と主な機能
- 完全ローカル実行とプライバシー設計
- MCPでClaude Code・Cursorと連携できる点
- 対応OSと利用に必要な環境
💡 知っておきたい用語
- TTS:文章を読み上げ音声に変換する技術。Text To Speech の略。
- 音声クローニング:数十秒の参照音声から話者の声質を再現する技術。
最終更新日: 2026年6月29日
▶ 公式ページ
- Voicebox 公式リポジトリ(GitHub)

Voiceboxとは
Voiceboxは、音声クローン・音声生成・ディクテーションを一つにまとめたオープンソースのAI音声スタジオです。直近24時間でX上、開発者層を中心に拡散しています。
この記事のポイント
- オープンソースの音声AI「Voicebox」が、最新リリース v0.5.0(2026年4月時点)でXで話題になっています。
- 完全ローカル実行で、音声データを端末外に送信しない設計です。
- MCP【エムシーピー】サーバーを内蔵し、Claude CodeやCursorと連携できます。
VoiceboxはMITライセンスで公開され、ElevenLabsやWisprFlowの代替を掲げています。GitHubのスター数は35,600以上(2026年6月時点)に達しています。
主な機能
音声に関わる複数の役割を一つのアプリにまとめている点が特徴です。
搭載機能は、参照音声からのゼロショットに対応した音声クローニング、音声生成(TTS)、ホットキーで任意のテキスト欄に音声入力できるグローバルディクテーション、ピッチシフトやリバーブなどのポストプロセッシングです。TTSエンジンはQwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox系、TADA、Kokoroの7種類を搭載し、23言語に対応します。
ローカル実行とエージェント連携
Voiceboxの設計上の軸は、完全ローカル実行とエージェント連携の2点です。
モデルと音声データは端末から外部に送信されない設計で、プライバシー保護を前面に出しています。加えてModel Context Protocol(MCP)サーバーを内蔵し、Claude CodeやCursorといったエージェントに音声出力機能を提供できます。対応OSはmacOS(Apple Silicon/Intel)、Windows、Linux、Dockerです。
編集部の見方
導入のしやすさ:Voiceboxは完全ローカルで動くため、音声データを外部に預けたくない用途と相性が良い設計です。一方で、Bun・Rust・Python 3.11以上・Tauri前提条件(macOSはXcode)が必要で、Apple SiliconはMLX、その他はPyTorch(CUDA/ROCm/XPU/CPU)を使う構成のため、現時点では開発者寄りのツールと位置づけられます。
差別化点:音声クローン・TTS・ディクテーションを別々のサービスに分けず一つにまとめ、さらにMCPでエージェントから呼び出せる点が、既存の音声サービスとの違いです。コーディングエージェントに音声出力を足したい層に向きます。
留意点:最新リリースは v0.5.0(2026年4月時点)で、バージョンはまだ初期段階です。本番運用での安定性や品質は、用途ごとに自分の環境で確かめる前提が現実的です。
よくある質問
Q: Voiceboxは無料で使えますか。
A: MITライセンスのオープンソースとして公開されています。ライセンス上は無料で利用・改変が可能です。
Q: クラウドに音声データが送られますか。
A: 公式リポジトリの説明では、モデルと音声データは端末外に送信されない完全ローカル実行の設計とされています。
Q: Claude CodeやCursorから使えますか。
A: MCPサーバーを内蔵しており、これらのエージェントに音声出力機能を提供できると説明されています。
まとめ
Voiceboxは、音声クローン・TTS・ディクテーションを統合した完全ローカル実行のオープンソース音声AIです。MITライセンス、7つのTTSエンジン、23言語対応、MCP内蔵という構成で、最新は v0.5.0(2026年4月時点)。コーディングエージェントに音声を足したい開発者にとって、検証する価値のある選択肢です。
【用語解説】
- MCP【エムシーピー】: Model Context Protocol の略。AIエージェントに外部ツールの機能を接続するための仕組み。
- ゼロショット: 事前の追加学習なしで、与えた参照データから直接処理を行う方式。
引用元:
- [1] Voicebox(GitHub リポジトリ)(GitHub)
この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。
Previous Post
Copilot初心者必見!後悔しない初期設定5選【2026最新】
Next Post
Claude が Microsoft Foundry で GA。Azure 上で提供開始
15 年以上の開発経験を持つソフトウェアエンジニア / テクノロジーライター。AI エージェントの実務活用を研究し、現場や経営者向けセミナーでその知見を発信。本メディア tech-noisy.com では、一次情報に基づく最新ニュース・解説記事を執筆。また、音楽生成 AI による DJ パフォーマンスを企業イベントで行うなど、テクノロジーと表現の融合も探求している。