
エッジでの多言語認識、リアルタイム翻訳、自然音声合成を実現。デスクトップ端末、会議端末、ガイドキオスクなどで双方向対話とクロス言語コミュニケーションを展開可能。
主なメリット




倉庫、工場、サーバールームなどの現場で、エッジ音声が複雑なUIやバーコードスキャナを代替。現場作業員は自然言語で入出庫登録、設備点検、巡回報告、危険通知を実施。ローカルASRが構造化テキストを出力し、WMS、MES、IoTプラットフォームに直接連携可能。
主なメリット




XIAO ESP32S3を低消費電力ウェイクワードフロントエンドとして使用し、AIボックスのASR-TTSパイプラインを起動。声紋認識で家族メンバーを識別し個人設定を適用。Matter、HomeAssistant、Mi Home等のローカルプロトコルと連携。全コマンドをローカル処理 — オフラインでも日常使用に支障なし。
主なメリット




音声処理の計算リソースをどこに置くかが、性能上限と単体BOMを決定します。一般的な3つの展開モデル:
主なメリット
| 製品 | グレード | 音声機能 | 試聴音色 | 参考価格 |
|---|---|---|---|---|
XIAO ESP32-S3 Sense | ウェイクフロントエンド(オンボードマイク) | ウェイクワード / コマンドワード | — | ~$10 |
reRouter CM4 | エントリー級 | 単一言語ローカル文字起こし | — | $200–300 |
reComputer AI R2130-12 | エントリー級 | 多言語双方向対話 | マシン音 | ~$339 |
reComputer J4012 | プロフェッショナル級 | 多言語対話 + 音声クローン | シミュレート音 | $800–900 |
reComputer J5012 | フラッグシップ級 | 多言語対話 + クローン + ローカルLLM | リアル音 | ~$2,000 |
AIコンピュートボックスは対応音声能力によってランク分けされています。下表はランク、対応能力、試聴音声品質、価格帯を記載(マイクとスピーカーの選定は次のタブを参照)。
主なメリット
| 製品 | タイプ | 適用範囲 | 主要パラメータ |
|---|---|---|---|
ReSpeaker Lite | 集音 (近距離) | ≤ 3m / デスクトップ / 単一ワークステーション | 2-Micアレイ / オンボードAI音声処理 / USB · I²S |
ReSpeaker XVF3800 | 集音 (中遠距離) | 3–5m / 会議 / リビングルーム / ワークステーション | 4-Mic / XMOS DSP / AEC / ESP32S3ウェイクフロントエンド付属 |
ReSpeaker Flex Circular-4 | 集音+スピーカー (円形) | ロボット360° / ウェイクフロントエンド付属 | 4-Mic / XMOS DSP / AEC / ESP32S3付属 / 10Wアンプ |
ReSpeaker Flex Linear-4 | 集音+スピーカー (リニア) | ロボット180° / ウェイクフロントエンド付属 | 4-Mic / XMOS DSP / AEC / ESP32S3付属 / 10Wアンプ |
マイク選定の核心変数は「集音距離」と「環境ノイズ」です。集音と出力の組み合わせに関する主要パラメータと推奨構成を以下に示します。
主なメリット