教程

AI智能分离多角色配音怎么做？多角色有声书制作完整教程

FlowPix Team 发布于 2026-06-10 2,133 字

简单说：AI多角色配音流程是"拆文本→分角色→各用不同AI音色配音→Audacity拼接"。用ChatGPT辅助标注角色对白，Azure给每个角色分配不同声音。一篇5000字短篇大约2小时能搞定。

单声音的AI配音听多了真的会腻。不管音色多好，从头到尾一个声音读小说，那种"广播剧感"完全没有。我之前做的有声书播放量一直上不去，直到我试了多角色配音——同一个故事，换了5个声音之后，完播率直接翻了将近一倍。

AI智能分离多角色配音听起来很高级，但实际操作没有想象中那么复杂。核心就是拆、配、拼三步。

第一步：拆分文本——识别旁白和各角色对白

多角色配音的第一步是把小说文本拆分成"旁白"和"各角色的对白"两部分。这是最费时但也最关键的一步。

手动拆分的话，就是逐句看：有引号的归角色、没引号的归旁白。5000字大约要30-40分钟。但有个偷懒的方法——用ChatGPT自动标注。

给ChatGPT这样的提示词：

请把以下小说文本按角色标注，格式为：
[旁白]：叙述内容
[角色名]：对白内容
保持原文不变，只加标注。

实测准确率大约85-90%。剩下10-15%需要手动校对——主要是嵌套引号和回忆对话容易被标错。FlowPix 编辑部试过几次，5000字的文本用ChatGPT标注+手动校对大约15分钟能搞定。

给旁白和每个角色分配不同的AI声音，选择原则是"性格匹配+声音区分度高"。不要让两个角色的声音太像。

我常用的角色-音色对照表：

一般3-5个音色就够一篇短篇小说了。太多声音反而让听众晕——"刚才说话的是谁来着？"

用Azure的Audio Content Creation，每个角色的对白分别生成一次音频。如果角色有情绪变化，可以用SSML的express-as标签调整。比如女主哭的时候加style="sad"。详细的SSML用法看轻声配音教程。

把所有角色的音频片段按故事顺序在Audacity里排列，角色之间留适当停顿，导出为完整音频。

拼接规则：

Audacity是免费的，官网下载就行。操作：把所有音频文件拖入不同轨道，用"时间移位工具"（F5）对齐位置，然后在段落间用"生成→静音"插入精确时长的间隔。

最后导出为MP3或WAV。一篇5000字的短篇，拼接后大约15-20分钟的音频。

想加背景音乐的话，把BGM放在单独轨道上，音量调到配音的15-20%。推荐用轻音乐或者氛围音乐，别选带歌词的——会和配音抢注意力。AI配音完整指南里有更多后期技巧。

如果你经常做多角色有声书，可以搭一套半自动化流程，把重复劳动降到最低。

我自己的workflow：

总耗时大约1小时/5000字。手动部分只有标注校对和Audacity微调。根据 Grand View Research数据，有声书市场年增长超过25%，多角色配音是有声书差异化的重要手段。

会Python的话，可以用Azure SDK批量生成音频，代码逻辑就是：读取标注好的文本→按角色分组→循环调用TTS API→保存为独立文件。不会写代码也没关系，Azure在线界面一个个生成也行，就是慢一些。

ChatGPT可以辅助标注，准确率85-90%。剩余需要手动校对。目前没有完美自动识别的工具。

3-5个就够。旁白+2-4个主要角色。太多反而混乱。Azure有20多种中文音色可选。配音工具对比里有推荐。

用Audacity按顺序排列音频片段。角色切换留0.5秒，场景切换留1.5秒。时间轴教程有详细方法。

多角色配音确实比单声音费事，但效果差距是质的飞跃。如果你做有声书或者故事类视频，这个投入绝对值得。先从短篇开始练手，5000字以内最友好。

觉得有用的话分享给朋友吧。