チュートリアル

AI音声カスタム辞書・固有名詞登録ガイド2026：発音ミスをゼロにする

FlowPix Team 公開日 2026-06-17 更新日 2026-06-20 1,621 文字

ひとことで言うと：AI音声の発音ミスは「テキストのひらがな化」「SSMLのphoneme指定」「カスタム辞書の自動置換」の3段階でほぼゼロにできます。会社名や専門用語が多いビジネス動画では辞書管理が品質の生命線です。

「次世代AIソリューションのFlowPixがGPT-4oを活用したDX推進を…」—この原稿、AIに読ませたらボロボロでした。

AI音声カスタム辞書を作れば解決します。専門用語や固有名詞の発音ミスをゼロにする方法を、ツール別に全部解説します。

レベル1：テキストのひらがな化（最も簡単）

AI音声は読み仮名のない単語を推測で読むため、事前にテキストをひらがなやカタカナに変換しておくのが最も確実な方法です。

変換例：「DX推進」→「ディーエックスすいしん」、「Salesforce」→「セールスフォース」、「Azure AI Speech」→「アジュールエーアイスピーチ」。

この方法は全ツール（VOICEVOX、ElevenLabs、CoeFont、Azure、Google）で共通して有効。ただし元の表記がわからなくなるので、変換前のテキストもコメントとして残しておく。

Azure AI SpeechとGoogle Cloud TTSはSSMLの <phoneme> タグで発音をIPA（国際音声記号）レベルで指定できます。最も精密な方法。

Azure SSML例：`<phoneme alphabet="ipa" ph="fʊɹaɪpɪks">FlowPix</phoneme>`

IPA記号を調べるのは手間だけど、固有名詞辞書を一度作ればずっと使い回せる。詳しいSSMLリファレンスは Azure AI Speech公式にあります。

ElevenLabsではSSMLの代わりに、テキスト中に「（〇〇と読む）」と発音ガイドを書くとAIが解釈してくれます。

例：「FlowPix（ふろーぴっくすと読む）の最新機能を紹介します。」

これは地味に便利。コーディング不要で、テキストの一部として自然に書ける。詳しくは ElevenLabs日本語版を。

Pythonで固有名詞の自動置換スクリプトを書けば、原稿を書くたびに手動で修正する手間がなくなります。

辞書ファイル（JSON）に「FlowPix→ふろーぴっくす」のようなペアを登録→スクリプトが原稿を自動置換→AI音声生成。月100本以上の動画を作るなら必須の自動化。詳しくは AI音声APIガイドと一括管理ツールを。

直せます。最も簡単なのはテキストをひらがな・カタカナに変換する方法。より精密にはAzureやGoogle TTSのSSMLでphoneme（発音記号）を指定する方法があります。ElevenLabsはテキストに「（〇〇と読む）」とガイドを入れるだけでも効果があります。

固有名詞リストを作り、テキスト生成前に自動置換するスクリプトを用意するのが効率的です。例：「DX」→「ディーエックス」、「Salesforce」→「セールスフォース」。Azure AI Speechではカスタム語彙リストをポータル上で登録することも可能です。

VOICEVOXはテキストをひらがなで書けば最も確実です。「FlowPix」→「ふろーぴっくす」のように。アクセント調整機能で単語ごとのイントネーションも修正できます。長期的にはユーザー辞書への単語登録機能の実装が期待されています。

役に立ったら友達にシェアしてね。