2026年7月1日

xAI、ノーコード音声エージェント「Voice Agent Builder」ベータ公開──0.05ドル/分

「Voice Agent Builder」とは?xAIがベータ公開したノーコード音声エージェントプラットフォーム

室谷室谷代表取締役
おっ、xAIがまた面白いもの出しましたね。今日(2025年5月)ベータ公開されたVoice Agent Builderってノーコードの音声エージェントプラットフォームだそうです。
テキトー教師テキトー教師.AI認定講師
そうですね。Grok Voiceを基盤にしていて、料金は0.05ドル/分。

アカウントごとに無料電話番号が付いてくるのも太っ腹です。公式ページを見ると「Sub-second latency」「25+ languages」「Human-like voice agents」と謳ってますね。
室谷室谷代表取締役
僕もMYUUUで音声エージェントを色々試してるんですが、やっぱりノーコードでポンと作れるのは大きい。しかも既存の電話番号やAPI、MCPを持ち込める柔軟性があるらしい。

これはエンタープライズでも使いやすい。
テキトー教師テキトー教師.AI認定講師
はい。従来の音声エージェント構築では、音声認識(STT)、言語モデル(LLM)、音声合成(TTS)の3つのAPIを別々のプロバイダーから調達して連携させる必要がありました。

背景ブリーフによると、各段階で異なるベンダーが関与するため、コスト増・レイテンシ増大・障害ポイントの分散・統合の手間といった問題があったんです。
室谷室谷代表取締役
確かに。それぞれのAPIの課金体系が違うし、認証方式もバラバラだと開発工数が跳ね上がる。

xAIはそこを一つのインターフェースで解決しようとしているわけですね。

料金は0.05ドル/分――既存の電話番号やAPI、MCPを持ち込める柔軟性

テキトー教師テキトー教師.AI認定講師
料金は0.05ドル/分で、これは音声エージェント業界ではかなり競争力のある価格設定だと思います。ただし、他社の価格と比較するのは控えますが、背景ブリーフではRetell AIやVapiなどのスタートアップが類似のサービスを提供していると書かれています。
室谷室谷代表取締役
重要なのは、既存の電話番号を持ち込める点ですね。企業がすでに持っている電話番号をそのまま使えるのは、導入コストを下げる上で大きい。

さらにAPIやMCP(Model Context Protocol)を持ち込めるので、自社のCRMやデータベースと連携した高度なエージェントが作れる。
テキトー教師テキトー教師.AI認定講師
そう、そこが従来のIVR(音声自動応答)と決定的に違うところです。IVRはツリー状の固定的な応答しかできませんが、Voice Agent BuilderはGrokの推論能力を使って、割り込みや言い間違いにも対応できる。

公式ページには「Real calls are messy. Grok handles the interruptions, the half-remembered order numbers, and the “actually, one more thing.”」とあります。
室谷室谷代表取締役
実際の電話対応は予測不能ですからね。あいまいな発言や途中変更にも柔軟に対応できるのは、顧客満足度に直結する。

なぜ「3つのAPIを貼り合わせる」従来方式ではダメなのか?xAIの狙い

テキトー教師テキトー教師.AI認定講師
ここが今回の発表の核心ですね。背景ブリーフにもある通り、従来はSTT・LLM・TTSを別々に調達して繋ぎ合わせる「3API貼り合わせ方式」が一般的でした。

しかし、各API間でレイテンシが積み重なり、障害が発生した際にどのAPIが原因か特定しづらいという課題がありました。
室谷室谷代表取締役
しかも、それぞれのAPIの出力品質がバラバラだと、最終的なユーザー体験が不安定になる。xAIは「Every hop adds cost, latency, and new failure modes. Voice Agent Builder is one interface built for Grok Voice, tightly coupled to the model.」とツイートしています。

つまり、モデルと密結合した一貫した設計で、品質と速度を両立させようというわけだ。
テキトー教師テキトー教師.AI認定講師
さらに、Grok Voiceは「Tau Voice Leaderboard」で1位を獲得したと公式ページにあります。実際の性能はともかく、xAIとしては自信を持って提供しているのでしょう。
室谷室谷代表取締役
教育現場でも、例えば予約受付や問い合わせ対応のボットをノーコードで作れるのは便利ですね。講座で受講生さんに「まずは無料電話番号で試してみましょう」と教えられます。

実際の使い方:無料電話番号付き、ベータ版を今すぐ試す手順

テキトー教師テキトー教師.AI認定講師
ベータ版は今すぐ試せます。公式サイト(http://x.ai/voice)にアクセスして「Try It Free」をクリックするだけ。

アカウントを作成すると、すぐに無料電話番号が割り当てられます。
室谷室谷代表取締役
その後は、ブラウザ上でエージェントの振る舞いを設定します。公式ページの画像を見ると、Instructionsで「GREETING」「RESOLVE」「WRAP UP」といったワークフローをテキストで記述するようです。

さらにナレッジベースとしてPDFやMarkdownをアップロードして、エージェントにドメイン知識を教え込める。
テキトー教師テキトー教師.AI認定講師
そうです。カスタムボイスも80種類以上から選べるほか、2分の音声サンプルからブランドボイスをクローンすることも可能。

応答はサブ秒で返ってくるとうたっているので、実用的な速度でしょう。
室谷室谷代表取締役
すぐに電話をかけられるプレビュー機能もついています。ブラウザ上で実際に話しながら調整できるのは開発効率がいい。

開発者・運用者にとってのメリット:ガードレール・観測可能性・テレフォニー統合

テキトー教師テキトー教師.AI認定講師
運用面でも強力な機能が揃っています。まず「Guardrails(ガードレール)」でエージェントの出力を制御できる点。

禁止ワードや話題制限を設定して、コンプライアンスを守れます。
室谷室谷代表取締役
観測可能性(Observability)も重要です。全ての通話を録音・再生できて、どのようなやり取りがあったか後から確認できる。

カスタマーサポートの品質管理には必須ですね。
テキトー教師テキトー教師.AI認定講師
テレフォニー統合としては、SIPサポートがあるので既存の電話システムと直接接続できます。SOC 2、HIPAA適合、GDPR準拠と企業要件もカバー。
室谷室谷代表取締役
既存のAPIやMCPを連携できるのもポイント高い。例えば、Difyのワークフローと組み合わせれば、より複雑なビジネスロジックを実装できるでしょう。
テキトー教師テキトー教師.AI認定講師
開発者がAPIで連携する場合は、Dify APIの使い方も参考になります。xAIはCLIやAPIコンソールも提供しているので、ノーコードだけでなくプログラマブルな拡張も可能です。

よくある質問(FAQ)──「Voice Agent Builder」の疑問を解消

室谷室谷代表取締役
最後によくある質問をまとめましょう。
テキトー教師テキトー教師.AI認定講師
はい、公式情報から答えられるものを。

Q: Voice Agent Builderは無料で試せる?

A: ベータ版は無料で試せます。アカウント作成時に無料電話番号が付与されます。ただし、通話料金は0.05ドル/分が発生します。

Q: 対応言語は?

A: 公式ページには「25+ languages」と記載されています。具体的な言語リストは現時点では明らかにされていませんが、主要言語はカバーしていると見られます。

Q: 料金はいくら?

A: 0.05ドル/分です。これには音声認識、言語モデル、音声合成の全てが含まれます。

Q: 既存の電話番号は使える?

A: はい、持ち込み可能です。SIP対応のテレフォニープロバイダーと連携すれば、現在使っている番号をそのまま利用できます。

Q: エンタープライズで使う場合のセキュリティは?

A: SOC 2、HIPAA対象、GDPR準拠と公式に宣言されています。ガードレール機能も備わっています。

室谷室谷代表取締役
現時点ではベータ版なので、今後機能が追加される可能性がありますね。

出典

新着記事

関連記事

.AI TIMES一覧に戻る