室谷ChatGPTの音声機能、これかなり進化してますよね。最初は「へえ、しゃべれるんだ」くらいの感想だったんですけど、最近は普通に日常会話で使ってます。
テキトー教師.AI(ドットエーアイ)のコミュニティのメンバーさんでも「音声モードを使い始めてから、ChatGPTへの向き合い方が変わった」って声が増えてますね。スマホで歩きながら使えるのが大きいみたいです。
室谷単に音声入力してテキストで返ってくるわけじゃないんですよね。ちゃんと話し言葉で返ってくるし、こちらが話してる途中で割り込むこともできるし・・・体感的にはかなり普通の会話に近くなってます。
テキトー教師そこが「高度な音声モード(Advanced Voice Mode)」の特徴ですよね。従来の音声入力とは根本的に仕組みが違います。
整理するとこういう構造です。
整理するとこういう構造です。
| 機能 | 従来の音声入力 | 高度な音声モード |
|---|---|---|
| 仕組み | 音声→テキスト変換→LLM処理→テキスト→音声 | 音声信号を直接ネイティブモデルが処理 |
| レスポンス | テキストを読み上げ | 自然な話し方・感情表現あり |
| 割り込み | 不可 | 可能 |
| 利用条件 | 全プラン | 全プラン(無料は制限あり) |
室谷この「ネイティブマルチモーダルモデルで処理する」ってのがポイントで・・・音声の抑揚とか間の取り方とかも含めてAIが理解してるんですよね。だから返答もより自然になる。
テキトー教師講座で実際に使ってもらうと、最初に「あ、普通に会話できる」って驚く方が多いです。テキストチャットとは全然感覚が違いますから。
ChatGPTの音声モードの種類と違い

テキトー教師まず音声モードに2種類あるのを整理した方がいいですね。「音声入力(ディクテーション)」と「高度な音声モード(Advanced Voice Mode)」は別物です。
室谷そうですね。混同してる人が多いんですよ・・・テキスト入力の代わりにしゃべるだけの音声入力と、双方向の音声会話は全然違います。
テキトー教師OpenAIの公式ページでも「音声会話(Voice Conversations)」として紹介されてるのは高度な音声モードの方です。日本語だと「ChatGPTの音声会話」がそのまま高度な音声モードを指すことが多いです。
室谷重要なのは高度な音声モードの方ですね。本当の意味での「音声会話」ができるのはこっちです。
テキトー教師声の種類も選べるようになってますね。OpenAIのによると9種類あります。
| 声の名前 | 印象 |
|---|---|
| Arbor | おおらかで汎用的 |
| Breeze | 活発で誠実 |
| Cove | 落ち着いていて直接的 |
| Ember | 自信があって楽観的 |
| Juniper | オープンで明るい |
| Maple | 陽気で率直 |
| Sol | 粋でリラックス |
| Spruce | 穏やかで肯定的 |
| Vale | 明るくて探求心旺盛 |
室谷MYUUUでは主に英語練習ツールとして活用しているメンバーが多くて、SolとかBreezeが人気ですね。声の印象が好みに合うものを選ぶのが一番です。
テキトー教師英語練習は音声モードの王道ユースケースですよね。ネイティブの自然な発音で返ってくるので、リスニング練習にもなります。
ChatGPTの音声会話の始め方:スマホ・PC別の手順
室谷使い方自体はシンプルですけど、スマホとPCで操作が少し違いますよね。
テキトー教師コミュニティのメンバーさんからよく聞くのが「音声アイコンがどこにあるかわからない」って話なので、ここを丁寧に説明した方がいいですね。
スマホ(iOS・Android)での始め方
テキトー教師モバイルアプリでの手順はこうです。
- ChatGPTアプリを開く
- テキスト入力欄の右下にある音声アイコン(波形マーク)をタップ
- 初回はマイクの許可を求めるダイアログが出るので「許可」をタップ
- 初回は音声(声の種類)を選択する画面が表示される
- 会話が始まる
室谷「音声アイコン」って言っても2種類あるのが混乱の原因なんですよね・・・テキスト入力のための音声入力ボタンと、音声会話を開始するボタンが別にあって。
テキトー教師テキスト入力欄の中にあるマイクアイコンは「ディクテーション(音声入力)」です。音声会話を始めるには、入力欄の右外側にある別のアイコンを使います。
室谷表示モードが2種類あるのも知っておいた方がいいですね。チャット画面に組み込まれた「統合ビュー」と「セパレートモード(青いオーブ画面)」と。
テキトー教師ほとんどのユーザーはデフォルトで統合ビューになりますね。セパレートモードに切り替えたい場合は「設定 → 音声 → セパレートモード」からできます。
室谷バックグラウンド会話もできるんですよ。画面を閉じても会話が続く。
テキトー教師設定で「バックグラウンド会話」をオンにすれば、他のアプリを使いながらでも音声会話が継続できます。ながら作業に使いやすいです。
PCブラウザ(ChatGPT.com)での始め方
テキトー教師PCブラウザでも音声会話は使えます。
室谷ブラウザから使えるの、意外と知らない人多いですよね。
テキトー教師ですね。手順はこうです。
- chatgpt.com にアクセス
- プロンプト入力欄の右側にある音声アイコンをクリック
- ブラウザのマイクアクセス許可ダイアログで「許可」
- 会話開始
室谷PCだとスクリーンシェアとか画像アップロードは有料プランユーザーのみですね。無料プランでも基本的な音声会話はできますが、画面共有・カメラ連携は有料プランのみです。
テキトー教師PCで使うなら、ヘッドフォンかイヤホンを使うのをおすすめします。スピーカーで使うとマイクがChatGPTの声を拾ってしまって、想定外の割り込みが起きることがあります。
ChatGPTの音声会話の使い方:プラン別の制限と無料版での利用
室谷ここが実際に使う前に一番知りたいところですよね。無料で使えるのか、制限は何かって。
テキトー教師コミュニティのメンバーさんから一番よく聞かれる質問です。に記載がある情報を整理するとこうなります。
| プラン | 利用可能モデル | 1日の制限 | 動画・スクリーンシェア |
|---|---|---|---|
| 無料(ログイン必須) | GPT-4o mini | 1日2時間まで | 不可 |
| Plus(月$20 / 約3,000円) | GPT-4o(優先)→上限後はGPT-4o mini | ほぼ無制限(日次制限あり) | 可能 |
| Pro(月$200 / 約30,000円) | GPT-4o(無制限) | 無制限(不正利用防止制限内) | 可能 |
| Business / Enterprise | GPT-4o(クレジット消費型) | クレジット制限内で無制限 | 可能 |
室谷無料で使えるのは大きいですね。ただGPT-4o miniになるし1日2時間の制限があるので、本格的に使うならPlusはほしいですよね。
テキトー教師講座でよく言うのが「毎日30分音声英会話するだけで、1ヶ月でリスニングが体感で変わる」って話で。それくらいの使い方なら無料枠でも十分収まります。
室谷でも日本語で仕事の相談に使ったり、長めのブレインストーミングをしたりすると2時間はすぐなくなりますよ・・・Plusにすると体験が全然変わります。
テキトー教師Plusにすると動画共有ができるのが大きいですね。「今見てるこの画面について話してほしい」ってリアルタイムで画面を見せながら会話できる。
室谷これを体験したことある人はわかると思いますけど、感覚が全然違うんですよね。「これどう思う?」って言いながら画面を見せると、それについてちゃんと答えてくれる。
ChatGPTの音声を変える・カスタマイズする方法
室谷声の変え方を聞かれることも多いですよね。
テキトー教師初期設定のままの人が多くて、「変えられることを知らなかった」って言う方も結構います。変更方法はシンプルです。
設定から変更する場合: 「設定 → 音声 → 声の選択」から変更できます。
音声モードの画面内から変更する場合: 音声会話中に画面右上のカスタマイズメニューから変更できます。ただし、変更するとその会話は一度終了して新しいチャットを開始する必要があります。
室谷9種類全部試してみて好きなものを選ぶのが一番ですね。
テキトー教師言語設定も関連しますね。音声モードで使う言語が自動検出でうまくいかない場合は、設定の「音声 → メイン言語」から言語を明示的に指定できます。
室谷日本語で使ってると途中で英語に切り替わることがたまにあって・・・メイン言語を日本語に設定しておくとその問題が解消されます。
ChatGPTの音声入力機能:ディクテーションの使い方
テキトー教師「高度な音声モード」の話ばかりしてきましたが、「音声入力(ディクテーション)」も便利なので触れておきます。
室谷これはテキスト入力の代替として使う機能ですよね。しゃべった内容をそのままテキストとして入力できる。
テキトー教師はい。長いプロンプトを手で入力するのが面倒なときや、アイデアをとにかく早く言葉にしたいときに便利です。
入力欄内のマイクアイコンをタップするだけです。
入力欄内のマイクアイコンをタップするだけです。
室谷MYUUUでもチームメンバーが使ってて・・・「プロンプトをしゃべって入力する方がタイピングより速い」って言ってましたね。慣れてくると確かにそう感じます。
テキトー教師注意点としては、音声入力はリアルタイムに変換されるので、少し間違えると変な文章になることがあります。入力後に確認・修正するのが良いですね。
ChatGPTの音声会話の活用法:英会話・英語練習
室谷音声モードの用途として、英語練習が特に人気ですよね。これは本当に使えると思っていて・・・
テキトー教師英語学習者にとって「スピーキング練習の相手がいない」という問題を解決してくれるんですよね。ネイティブの先生に頼むとお金がかかるし、予約も必要だし。
室谷24時間いつでも使えて、自分のペースで話せて、失敗しても恥ずかしくない。英会話学習として理想的な環境だと思います。
テキトー教師.AIでも英語練習のユースケースは人気で、コミュニティのメンバーさんが実際に使っている活用例はこうです。
- TOEIC・英検のスピーキング練習
- 日常英会話のシナリオ練習(カフェで注文する、会議で発言するなど)
- 発音矯正(「私の発音を指摘しながら会話して」と頼む)
- 英語でのプレゼン練習
- リアルタイム翻訳(話した内容をその場で英語に翻訳してもらう)
室谷発音矯正の使い方は特に面白いですよね。「私の英語の発音が間違っていたら、その都度指摘してください」って一言頼むだけで、先生モードになってくれる。
テキトー教師そこが単なる翻訳ツールや辞書と違うところですよね。インタラクティブにフィードバックをもらえる。
講座でも「次の商談の練習をしたい、相手役をやってください」って頼むと、ロールプレイ形式で練習できると紹介しています。受講生さんから好評です。
講座でも「次の商談の練習をしたい、相手役をやってください」って頼むと、ロールプレイ形式で練習できると紹介しています。受講生さんから好評です。
室谷日本語の言語化練習にも使えますよね。プレゼンの練習とか、人に伝えるための言葉を磨くとか。
ChatGPTの音声会話でできること:ユースケース一覧
テキトー教師英語練習以外にも、音声モードの活用法って広いですよね。
室谷ハンズフリーで使えるってのが最大のメリットで・・・料理しながら、移動しながら、歩きながら使えるのがテキストと全然違うところです。
テキトー教師具体的なユースケースをまとめるとこうなりますね。
料理・家事中
- レシピを聞きながら調理(画面を見なくていい)
- 「大さじ2は何グラム?」を手が汚れたまま聞く
移動中
- アイデアをしゃべってブレインストーミング
- 言語学習・英会話練習
- ニュースや情報収集
仕事・ビジネス
- 会議前のアイデア整理
- 文章の構成を口頭で練る
- スピーチ・プレゼンの練習
学習・教育
- 科目の質問を音声でやりとり
- 暗記内容をクイズ形式で確認
- 子どもへの読み聞かせ(「おとぎ話を作って」)
室谷「就寝前のおとぎ話」ってでユースケースとして紹介されてるんですよ。子どもに向けてその場でお話を作ってもらえるって、なかなかユニークですよね。
テキトー教師公式には「アイスラテの注文を日本語でする練習」「スタートアップのエレベーターピッチについてフィードバックして」みたいな具体的なプロンプト例も載っていて参考になります。
ChatGPTの音声ファイルのアップロードと文字起こし
テキトー教師「音声モード」とはまた別の機能として、「音声ファイルのアップロード」があります。
室谷会議の録音ファイルをChatGPTに投げて要約してもらう、みたいな使い方ですね。
テキトー教師はい。テキストチャットの中でファイルをアップロードする機能です。
音声会話とは別で、mp3やm4aファイルを直接チャットにアップロードして「この音声を文字起こしして」「要約して」と依頼できます。
音声会話とは別で、mp3やm4aファイルを直接チャットにアップロードして「この音声を文字起こしして」「要約して」と依頼できます。
室谷MYUUUでも使ってて・・・インタビュー音声や打ち合わせの録音を文字起こしするのに使ってます。精度がかなり高いんですよね。
日本語にも対応してるので、日本語の音声ファイルも問題なく使えます。
日本語にも対応してるので、日本語の音声ファイルも問題なく使えます。
テキトー教師ノイズがある環境の録音でも比較的うまく文字起こしできます。ただしファイルサイズの制限があるので、大きな音声ファイルは分割が必要です。
室谷これは「音声会話」じゃなくて「ファイル処理」なので、リアルタイムでしゃべりながらの会話とは用途が違います。混同しがちですが、目的に応じて使い分けてください。
ChatGPTの音声API:開発者向け音声合成・認識
室谷開発者視点でいうと、ChatGPTの音声機能はAPIでも使えますよね。
テキトー教師OpenAI APIに「音声合成(TTS: Text-to-Speech)」と「音声認識(STT: Speech-to-Text)」の両方があります。アプリ開発に組み込む用途ですね。
室谷MYUUUでも音声APIを使ったプロダクトを作ったことがあって・・・カスタマーサポートBotの応答を音声で返すみたいな。コールセンターの自動応答、音声ナビゲーション、アクセシビリティ向けの読み上げ機能など、用途は広いですよ。
テキトー教師Realtime APIも整備されてきてて、これだとリアルタイムに音声でのやり取りができるアプリが作れます。高度な音声モードと同様の体験を自分のアプリに組み込める感じです。
室谷日本の開発者コミュニティではまだ活用事例が少ないですが、海外ではかなり使われてますね。音声AIアシスタント系のプロダクトがどんどん増えてます。
ChatGPTの音声会話に関するよくある質問
音声会話の途中で話を遮ることはできますか?
室谷これは高度な音声モードの特徴の一つで、できます。ChatGPTが話している途中に声を出すと、ChatGPTが話すのを止めてくれます。
テキストチャットにはない体験ですよね。
テキストチャットにはない体験ですよね。
テキトー教師ただし、ヘッドフォンを使った方が誤作動が少ないです。周囲の音でも割り込み検知されることがあるので。
音声会話の内容は記録されますか?
テキトー教師公式FAQによると、音声クリップ自体は30日間保存されます。チャットを削除すると30日以内に音声クリップも削除されます。
室谷トランスクリプト(テキスト記録)はチャット履歴に残りますよね。音声会話を終了すると、会話のテキスト起こしがチャット履歴に追加されます。
後から見直せるのは便利です。
後から見直せるのは便利です。
音声が途切れる・遅いときの対処法は?
テキトー教師公式には「ヘッドフォンを使う」「静かな環境で使う」「iPhoneなら音声分離モードを使う」が推奨されてます。iPhoneのコントロールセンターから「マイクモード → 音声分離」に設定できます。
室谷Wi-Fi環境で使うのが基本ですね。4Gだと途切れることがあります。
あとアプリを再起動するだけで直ることも多いです。
あとアプリを再起動するだけで直ることも多いです。
音声会話はカスタムGPT(GPTs)と組み合わせて使えますか?
テキトー教師はい、できます。ただしGPTsでの音声には「Shimmer」という専用音声が使われます。
なお音声モードでは画像生成やファイルアップロード、コードインタープリターなどのツールには対応していないので注意が必要です。
なお音声モードでは画像生成やファイルアップロード、コードインタープリターなどのツールには対応していないので注意が必要です。
室谷カスタムGPTを音声モードで使うユースケースとして、英語学習専門の先生GPTを作っておいて、毎日音声で会話練習するというのが面白いですよね。
ChatGPTの音声会話はどこに向かうのか
室谷少し先の話をすると・・・先日a16zのレポートで「ChatGPTの週間ユーザーが9億人になった」って話題になりましたよね。
テキトー教師このレポートで面白いのは「Search→Conversation→Execution」という流れで、AIの役割が「答える道具」から「働く同僚」に変わっているという指摘ですね。
室谷音声会話ってその「Conversation」の部分をリテラルに表してる機能で・・・テキストで検索する時代から、話しかけて相談する時代に変わってきてるんですよね。
テキトー教師私も講座で「ChatGPTはチャットするものじゃなくて、話しかけるものになっていく」って言い始めてます。音声モードを試したことがない人は、まず一度試してみてほしいですね。
室谷テキストより自然に相談できるし、考えがまとまりやすい。ハンズフリーで使えるから生活の中に溶け込む。
前回の記事でChatGPTの使い方全般を学んだ方は、ぜひ音声モードを次のステップとして試してみてください。
前回の記事でChatGPTの使い方全般を学んだ方は、ぜひ音声モードを次のステップとして試してみてください。
まとめ
室谷今回のポイントをまとめると・・・まず「音声会話」と「音声入力(ディクテーション)」は別機能だということ。そして本当の音声会話は「高度な音声モード(Advanced Voice Mode)」が実現している、ということですね。
テキトー教師利用できる環境は、スマホアプリ・PCブラウザ(chatgpt.com)の両方。無料プランでも1日2時間まで使えますが、本格的に使うならPlusにすると体験が大きく変わります。
室谷活用法は英会話練習・ハンズフリー情報収集・ブレインストーミングなど様々ですが、まず試してみるのが一番です。百聞は一見(一聴)にしかず、です。
テキトー教師声の種類も9種類から選べますし、バックグラウンド会話も設定できます。自分のライフスタイルに合わせた使い方を見つけてみてください。
