诗词AI配音怎么做?古诗词朗诵配音的正确打开方式 - FlowPix
简单说:诗词AI配音的核心难点不是"读对字"而是"读出韵"。关键三步——先用标点和空格控制断句节奏,再把语速降到0.8-0.88倍让气息撑开,最后稳定性设在0.55-0.65之间给音调留出自然起伏的空间。配上对味的古风BGM,效果能达到省级朗诵比赛的及格线。
有没有人跟我一样,第一次用AI读古诗词的时候差点笑出来?
"床前/明月光,疑是/地上霜。"——读是读对了,但那个味儿,怎么说呢,像小学一年级的课文朗读打卡。字正腔圆、毫无感情、停顿全在错误的地方。AI把"床前明月光"读成了"床前、明月、光",三个词中间等距停顿,像在报菜名。
我花了大概两个星期专门研究诗词AI配音这个事,因为有个做国学启蒙APP的客户需要大量古诗词朗诵音频——超过500首。请专业朗诵播音员录的话,按每首诗80-150元算,光配音费就得四五万。所以他来问我能不能用AI搞。
能搞。但得花心思。下面这些全是我在那个项目里一首一首调出来的经验。
AI读诗词为什么默认就是"念课文"
AI语音模型是用海量的"正常说话"语料训练出来的,诗词朗诵在训练数据里占比极低——所以AI不知道古诗词有自己的一套韵律规则、停顿逻辑和情绪表达方式。你不教它,它就用念新闻稿的方式念诗。
想明白这一点很重要。这不是工具的"Bug",是它的"出厂设置"。就像你给一个外国人一首中文古诗的拼音,他能读出每个字的发音,但韵味?不存在的。因为他不理解这些字背后的意境和节奏传统。
AI也一样。它认识每个字,但不理解"大漠孤烟直,长河落日圆"里那种开阔到让人窒息的画面感应该怎么用声音去传递。
根据Statista 2025年数据,中文AI语音合成市场年规模已经达到47亿人民币,但专门面向"诗词朗诵"这个细分场景的优化几乎为零。所有的调优工作都得你自己来。
断句:整件事里最关键的一步
古诗词的断句直接决定了朗诵的韵味——五言诗通常是"二三"或"二一二"断,七言诗通常是"二二三"或"四三"断。你必须用标点、空格或SSML标签手动告诉AI在哪里停。
这一步占了整个调优工作量的60%以上。我不夸张。
以李白《静夜思》为例。原文"床前明月光"五个字,默认给AI它会匀速读完,中间没有任何停顿。但正确的朗诵节奏应该是"床前——明月光","床前"后面有一个微妙的气息停顿(大概0.3秒),"明月光"三个字连贯读出。
怎么让AI做到这个?三种方法,难度递增:
方法一(最简单):用逗号和空格。把"床前明月光"改成"床前,明月光"。AI遇到逗号会自动停顿大约0.2-0.3秒。如果觉得停顿不够长,在逗号后面加一两个空格。简单粗暴但有效。
方法二(中等):用省略号控制长停顿。"床前……明月光"——省略号会让AI停顿约0.5-0.8秒,适合需要"留白感"的地方。比如"举头望明月……低头思故乡"中间那个情绪转折。
方法三(最精确):SSML的break标签。如果你用的平台支持SSML(Azure TTS、部分FlowPix方案支持),可以写<break time="350ms"/>精确到毫秒级控制停顿。我在那个500首诗的项目里最终用的就是这个方案——虽然标注量大,但效果最好。
给一个我实际用过的断句对照表:
| 诗体 | 断句规律 | 示例 | 标注方式 |
|---|---|---|---|
| 五言绝句 | 二三断 | 白日/依山尽 | 白日,依山尽 |
| 五言绝句 | 二一二断 | 春眠/不/觉晓 | 春眠,不觉晓 |
| 七言绝句 | 四三断 | 两个黄鹂/鸣翠柳 | 两个黄鹂,鸣翠柳 |
| 七言绝句 | 二二三断 | 朝辞/白帝/彩云间 | 朝辞,白帝,彩云间 |
| 宋词 | 按意群断 | 大江东去/浪淘尽 | 大江东去,浪淘尽 |
有一点要注意:不是每句诗都适合同一种断法。同一首诗里不同句子的断句方式可能完全不同。这就需要你懂一点点古诗词的格律知识——至少知道"二三断"和"二一二断"有什么区别、什么时候该用哪种。
说到格律这个事,我有个很惨的翻车经历。
有次给杜甫的《登高》配音,"无边落木萧萧下,不尽长江滚滚来"——我按七言的"四三断"处理,"无边落木/萧萧下"。听起来也还行对吧?但客户是个退休的中学语文老师,她一听就说不对。正确的应该是"二二三断":"无边/落木/萧萧下"。因为"无边"是修饰"落木"的定语,中间要断开,让听者先感受"无边"的广阔,再落到"落木"的苍凉。
这个纠正让我意识到:诗词配音不只是技术活,更是文学活。参数调得再好,断句断错了,整首诗的意境就垮了。后来我每做一首新诗,都会先查一下这首诗的标准朗诵断句方案再开始标注。
语速和稳定性:营造"气韵"的两个核心参数
诗词朗诵的语速应该比正常说话慢15%-22%——具体设在0.8-0.88倍速。稳定性设在0.55-0.65之间,太高会死板,太低会飘忽。这两个参数的组合决定了朗诵的"气韵"。
什么是"气韵"?很虚的一个词,但在朗诵领域它就是命根子。
打个比方:你见过书法作品吗?同样写一个"永"字,印刷体和颜真卿写的差距在哪?不是笔画对不对——都是那几笔。差距在"气"上——笔画的粗细变化、墨色的浓淡过渡、笔锋的提按转折。朗诵也一样。同样的文字,有气韵的朗诵像行云流水、有呼吸感,没气韵的朗诵就是复读机。
回到参数。语速0.8-0.88倍这个范围是我测了大概七八十首诗之后找到的。低于0.78就太慢了——不是朗诵是催眠。高于0.9就开始失去"吟诵感",听着更像在读课文。
而且不同诗的语速还得微调。豪放派词(苏轼、辛弃疾)可以快一点,0.87-0.9;婉约派词(李清照、柳永)要慢一点,0.8-0.84;叙事诗(白居易《琵琶行》)节奏要有变化,总体0.85但高潮段落可以加到0.9。
稳定性这个参数就更微妙了。0.55的时候,AI的音调会有明显起伏——有的字高、有的字低——这种起伏如果恰好跟诗词的平仄一致,效果就很好。但AI不懂平仄,它的起伏是随机的,所以有概率"对上"也有概率"反着来"。我的做法是:先用0.6生成一版,听一遍。如果大部分地方的音调起伏是对的,就用;如果不对,调到0.58或0.63重新生成——稳定性变一点点,出来的音调走势就完全不同。
老实讲,这个过程有点像在抽卡。你没法精确控制哪个字高哪个字低(除非用SSML单独标注每个字的音调,但那工作量太恐怖了)。但多试几次总能出一版满意的。我做500首诗的项目,平均每首生成3.2次才定稿。
音色选择:不是所有声音都适合读诗
诗词朗诵对音色的要求是"清、厚、有磁性"——过于年轻的声音撑不住意境,过于尖锐的声音破坏美感。男声选中低音区、带胸腔共鸣感的音色,女声选中音区、温润不尖的音色。
这一点我个人觉得比参数调节还重要。底色选错了,后面怎么调都别扭。
就像唱歌一样——你让周杰伦唱京剧?技术上可以,听感上灾难。声音底色跟内容气质要匹配。
我在FlowPix上试过十几个音色读同一首《将进酒》,最后挑出来的是一个标注为"浑厚男中音"的音色。为什么?因为《将进酒》是李白醉酒后的豪放狂歌,需要那种"声音里带着一壶酒"的粗犷感。用清亮的男高音读"天生我材必有用,千金散尽还复来",出来的效果像个刚毕业的播音系学生在朗诵比赛上背课文——字对,味儿不对。
几个选音色的原则:
豪放诗词(李白、苏轼、辛弃疾)→ 浑厚男声、稍微带一点沙哑的更好。
婉约诗词(李清照、纳兰性德)→ 温润女声或者质感温柔的男声都行。
田园诗(陶渊明、王维)→ 平和淡然的中性音色,不要太有"表演感"。
边塞诗(王昌龄、高适)→ 刚硬的男声,稳定性可以拉高一些让声音更"硬"。
有个小技巧:同一个音色底色,如果你把风格夸张度从0.2提到0.4,听起来"戏剧感"会增强很多——特别适合比较激昂的诗句。但日常的山水田园诗就别用高夸张度了,会显得过于做作。具体怎么调参数可以参考AI配音自然度参数技巧这篇。
背景音乐:很多人忽略但极其重要的一层
诗词朗诵加上合适的背景音乐,听感提升不是10%而是翻倍。古风BGM的选择原则:器乐为主(古筝、笛子、琵琶)、节奏要慢于朗诵语速、音量压到朗诵音量的15%-25%。
我试了下——同一段朗诵,有BGM和没BGM的评分差异(找了20个人盲测打分):无BGM平均6.3分,有合适BGM平均8.1分。差距将近两分。
但!BGM选错了不如不加。
我犯过一个特别蠢的错误:给李清照的《声声慢》配了一段琵琶曲。你可能觉得"琵琶+宋词,没毛病啊"。问题是那段琵琶曲的节奏太快了,是《十面埋伏》那种杀气腾腾的路子。配上"寻寻觅觅,冷冷清清,凄凄惨惨戚戚"——你品,你细品。
后来换成了一段缓慢的古琴独奏,效果立刻对了。
BGM的音量控制也有讲究。太大会抢朗诵的风头,太小等于没有。我的经验值是:用音频编辑软件把BGM的音量压到-12dB到-16dB之间(相对于朗诵的音量),大约是朗诵音量的15%-25%。让BGM在背景里若有若无、像一层薄雾一样铺着,听者的注意力仍然在朗诵上,但潜意识能感受到氛围。
关于音频生成的完整流程可以参考AI配音文本转音频教程,里面也讲了怎么把配音和BGM合成到一起。
不同诗体的参数差异
不是所有古诗词都该用同一套参数。不同诗体的节奏结构差异很大,参数得跟着变。
我把自己用过的参数按诗体整理了一下:
| 诗体 | 语速 | 稳定性 | 夸张度 | 停顿标注重点 |
|---|---|---|---|---|
| 五言绝句 | 0.82x | 0.6 | 0.25 | 二三断为主,句间停0.5s |
| 七言绝句 | 0.85x | 0.6 | 0.3 | 四三断或二二三断,根据语义 |
| 五言律诗 | 0.83x | 0.62 | 0.25 | 颔联颈联对仗处节奏要一致 |
| 七言律诗 | 0.86x | 0.62 | 0.3 | 同上 |
| 豪放词 | 0.88x | 0.55 | 0.45 | 长短句自然断,高潮处可加速 |
| 婉约词 | 0.8x | 0.63 | 0.2 | 多留白、多长停顿 |
| 古体诗/乐府 | 0.84x | 0.58 | 0.35 | 叙事节奏,停顿跟意群走 |
这个表可以直接拿去用,但别当成死规矩。具体到每首诗还是要根据内容微调。比如同样是五言绝句,王维的"空山不见人"和李白的"朝辞白帝彩云间"——前者需要更慢更静,后者需要更明快更飞扬。参数得跟着意境走。
对了,有个很冷门但好用的技巧想单独拎出来说。
押韵的字——就是每句末尾那个韵脚——你可以在它前面加一个很短的停顿(150-200ms),然后让AI稍微把这个字"拖"一下。怎么拖?在韵脚字后面加一个破折号或省略号。比如"白日依山尽——",AI读到"尽"这个字会自然延长一点点尾音。
这个细节非常小,但效果巨大。因为诗词朗诵的美感很大程度来自于韵脚的回环感——就像音乐的和弦终止式一样,韵脚是一句诗的"落点",稍微强调一下就能让整句诗"收住"。
专业朗诵播音员都会在韵脚上做处理,只是他们靠本能和经验,我们靠标点符号和标签。目标一样,路径不同。
批量生产的工作流
做大批量诗词配音(比如100首以上),一定要先建标准化工作流:文本预处理(断句标注)→ 参数模板匹配 → 批量生成 → 质检回听 → 问题件重生成 → BGM合成。
我那个500首诗的项目,实际工作流是这样的:
第一步,拿到诗词原文后先分类——五绝、七绝、五律、七律、词、古体,每类对应一套参数模板。这步大概花了2小时。
第二步,断句标注。这是最耗时的。500首诗,每首平均4-8句,每句都要手动标注停顿位置和长度。我找了一个中文系的实习生帮忙,两个人一起干了三天。没错,三天——这是整个项目里最"人工"的环节。
第三步,用FlowPix的批量功能生成音频。500首诗分成7个批次跑完的,每批次大概70首,跑一批大概40分钟。
第四步,质检。每首回听一遍确认效果。这个没法偷懒——AI偶尔会在某个字上"打结"(读错音或者节奏突然乱掉),不听你发现不了。500首里大概有80首需要重新生成(约16%的返工率)。
第五步,合成BGM。按诗的类型匹配不同的背景音乐(豪放配鼓+笛、婉约配古筝+琴、田园配纯古琴),统一调好音量,导出成品。
整个项目从启动到交付用了大约12个工作日。如果请真人配音员录500首诗——按每天录30首的速度算(已经很快了),光录音就得17天,还不算后期剪辑。
几个容易被忽略的细节
多音字是古诗词配音的重灾区。"远上寒山石径斜"的"斜"在古音里读xiá不读xié,但大部分AI工具只认现代发音。解法:查古音读法,在文案里直接用同音字替代。比如把"斜"写成"霞"——AI读出来发音一样,听者听到的效果就对了。
这招虽然有点"作弊",但很管用。FlowPix支持部分古音词库,常见的古音字可以自动识别,但冷门的还是得手动处理。
入声字是另一个坑。古汉语里入声字发音短促有力(比如"白""月""国""客"),但现代普通话已经没有入声了。AI用普通话读这些字会拖长,丧失原本的顿挫感。目前没有完美解法——你可以试试在入声字后面加一个很短的break(100ms),制造一点人工的"顿"感,效果勉强能接受。
还有个事关于风格调节——朗诵诗词的时候不要用AI配音风格调节指南里讲的"新闻腔"参数。我看到有人这么干,出来的效果就是"播音员在念一首诗"——技术层面无可挑剔,但跟诗词该有的气质完全不搭。诗词朗诵需要的是"吟诵感"而不是"播报感",这两种东西差得很远。
写在最后
用AI给古诗词配音这件事,说到底是一场"技术"和"文学"的跨界碰撞。技术上它已经能做到八九成——语音清晰、可控、成本低。但剩下的一两成——对诗歌意境的理解、对韵律节奏的把握、对情感分寸的拿捏——这些还得靠人来补。
AI是一支很好的毛笔。但书法的好坏不取决于笔,取决于握笔的人。
我个人觉得现阶段AI诗词配音最适合的场景是"量大、质量要求中等偏上"——比如国学APP里的几百首诗词音频、学校的古诗词听力素材、短视频平台上的诗词类内容。如果你要做的是那种参加比赛或者出版发行级别的精品朗诵,还是建议请专业的人来。AI做80分很容易,但从80分到95分那段路,人类仍然遥遥领先。
不过话又说回来,80分已经够用了——对于绝大多数内容创作者来说。你的用户/观众在意的是"能不能听、好不好听",不是"这是人录的还是AI录的"。
如果你也在做诗词类的内容,PPT配音的场景可以看这篇PPT添加AI配音旁白指南,里面讲的配音嵌入方法同样适用于课件和教学场景。
觉得有用就分享给你身边爱诗词的朋友吧——特别是那些做国学号、教育号的,这套方案能帮他们省下不少配音预算。有什么关于诗词配音的问题也欢迎留言,这个细分领域研究的人不多,能交流交流也挺好的。
常见问题
AI能读准古诗的平仄吗?
大部分工具按现代普通话读,不会自动按格律替你"踩拍子"。想贴近传统听感,只能靠断句、停顿长短和个别同音替换来模拟,平仄本身还得靠人耳去调。别期待一键还原吟诵腔,那是人和文本功课,不是模型开关。
哪个工具读古诗最有韵味?
没有绝对冠军,和音色、引擎中文韵律有关。建议你挑两三家支持情绪与停顿细调的工具,用同一首诗做盲听对比——谁更稳、少吞字,就比谁参数花里胡哨更重要。韵味往往是调出来的,不是选出来的。
AI朗诵能用于学校教学吗?
课堂示范、跟读素材、拓展阅读一般没问题,注意商用授权和版权来源即可。若涉及考试示范或正式出版,最好先和学校或出版社确认要求,必要时保留人工示范作对照,让学生知道机器朗读的边界在哪里。
古诗里的多音字怎么处理最省事?
先查本首诗里争议字的常见读法,能改同音字替换的就替换,不能换的用拼音或拆词标注给引擎。批量项目里建一份本册多音字表,比逐首临时搜要省心,也不容易前后不一致。