教程

诗词AI配音怎么做？古诗词朗诵配音的正确打开方式 - FlowPix

FlowPix Team 发布于 2026-04-01 更新于 2026-06-21 6,631 字

简单说：诗词AI配音的核心难点不是"读对字"而是"读出韵"。关键三步——先用标点和空格控制断句节奏，再把语速降到0.8-0.88倍让气息撑开，最后稳定性设在0.55-0.65之间给音调留出自然起伏的空间。配上对味的古风BGM，效果能达到省级朗诵比赛的及格线。

有没有人跟我一样，第一次用AI读古诗词的时候差点笑出来？

"床前/明月光，疑是/地上霜。"——读是读对了，但那个味儿，怎么说呢，像小学一年级的课文朗读打卡。字正腔圆、毫无感情、停顿全在错误的地方。AI把"床前明月光"读成了"床前、明月、光"，三个词中间等距停顿，像在报菜名。

我花了大概两个星期专门研究诗词AI配音这个事，因为有个做国学启蒙APP的客户需要大量古诗词朗诵音频——超过500首。请专业朗诵播音员录的话，按每首诗80-150元算，光配音费就得四五万。所以他来问我能不能用AI搞。

能搞。但得花心思。下面这些全是我在那个项目里一首一首调出来的经验。

AI读诗词为什么默认就是"念课文"

AI语音模型是用海量的"正常说话"语料训练出来的，诗词朗诵在训练数据里占比极低——所以AI不知道古诗词有自己的一套韵律规则、停顿逻辑和情绪表达方式。你不教它，它就用念新闻稿的方式念诗。

想明白这一点很重要。这不是工具的"Bug"，是它的"出厂设置"。就像你给一个外国人一首中文古诗的拼音，他能读出每个字的发音，但韵味？不存在的。因为他不理解这些字背后的意境和节奏传统。

AI也一样。它认识每个字，但不理解"大漠孤烟直，长河落日圆"里那种开阔到让人窒息的画面感应该怎么用声音去传递。

根据Statista 2025年数据，中文AI语音合成市场年规模已经达到47亿人民币，但专门面向"诗词朗诵"这个细分场景的优化几乎为零。所有的调优工作都得你自己来。

断句：整件事里最关键的一步

古诗词的断句直接决定了朗诵的韵味——五言诗通常是"二三"或"二一二"断，七言诗通常是"二二三"或"四三"断。你必须用标点、空格或SSML标签手动告诉AI在哪里停。

这一步占了整个调优工作量的60%以上。我不夸张。

以李白《静夜思》为例。原文"床前明月光"五个字，默认给AI它会匀速读完，中间没有任何停顿。但正确的朗诵节奏应该是"床前——明月光"，"床前"后面有一个微妙的气息停顿（大概0.3秒），"明月光"三个字连贯读出。

怎么让AI做到这个？三种方法，难度递增：

方法一（最简单）：用逗号和空格。把"床前明月光"改成"床前，明月光"。AI遇到逗号会自动停顿大约0.2-0.3秒。如果觉得停顿不够长，在逗号后面加一两个空格。简单粗暴但有效。

方法二（中等）：用省略号控制长停顿。"床前……明月光"——省略号会让AI停顿约0.5-0.8秒，适合需要"留白感"的地方。比如"举头望明月……低头思故乡"中间那个情绪转折。

方法三（最精确）：SSML的break标签。如果你用的平台支持SSML（Azure TTS、部分FlowPix方案支持），可以写<break time="350ms"/>精确到毫秒级控制停顿。我在那个500首诗的项目里最终用的就是这个方案——虽然标注量大，但效果最好。

给一个我实际用过的断句对照表：

诗体	断句规律	示例	标注方式
五言绝句	二三断	白日/依山尽	白日，依山尽
五言绝句	二一二断	春眠/不/觉晓	春眠，不觉晓
七言绝句	四三断	两个黄鹂/鸣翠柳	两个黄鹂，鸣翠柳
七言绝句	二二三断	朝辞/白帝/彩云间	朝辞，白帝，彩云间
宋词	按意群断	大江东去/浪淘尽	大江东去，浪淘尽

有一点要注意：不是每句诗都适合同一种断法。同一首诗里不同句子的断句方式可能完全不同。这就需要你懂一点点古诗词的格律知识——至少知道"二三断"和"二一二断"有什么区别、什么时候该用哪种。

说到格律这个事，我有个很惨的翻车经历。

有次给杜甫的《登高》配音，"无边落木萧萧下，不尽长江滚滚来"——我按七言的"四三断"处理，"无边落木/萧萧下"。听起来也还行对吧？但客户是个退休的中学语文老师，她一听就说不对。正确的应该是"二二三断"："无边/落木/萧萧下"。因为"无边"是修饰"落木"的定语，中间要断开，让听者先感受"无边"的广阔，再落到"落木"的苍凉。

这个纠正让我意识到：诗词配音不只是技术活，更是文学活。参数调得再好，断句断错了，整首诗的意境就垮了。后来我每做一首新诗，都会先查一下这首诗的标准朗诵断句方案再开始标注。

语速和稳定性：营造"气韵"的两个核心参数

诗词朗诵的语速应该比正常说话慢15%-22%——具体设在0.8-0.88倍速。稳定性设在0.55-0.65之间，太高会死板，太低会飘忽。这两个参数的组合决定了朗诵的"气韵"。

什么是"气韵"？很虚的一个词，但在朗诵领域它就是命根子。

打个比方：你见过书法作品吗？同样写一个"永"字，印刷体和颜真卿写的差距在哪？不是笔画对不对——都是那几笔。差距在"气"上——笔画的粗细变化、墨色的浓淡过渡、笔锋的提按转折。朗诵也一样。同样的文字，有气韵的朗诵像行云流水、有呼吸感，没气韵的朗诵就是复读机。

回到参数。语速0.8-0.88倍这个范围是我测了大概七八十首诗之后找到的。低于0.78就太慢了——不是朗诵是催眠。高于0.9就开始失去"吟诵感"，听着更像在读课文。

而且不同诗的语速还得微调。豪放派词（苏轼、辛弃疾）可以快一点，0.87-0.9；婉约派词（李清照、柳永）要慢一点，0.8-0.84；叙事诗（白居易《琵琶行》）节奏要有变化，总体0.85但高潮段落可以加到0.9。

稳定性这个参数就更微妙了。0.55的时候，AI的音调会有明显起伏——有的字高、有的字低——这种起伏如果恰好跟诗词的平仄一致，效果就很好。但AI不懂平仄，它的起伏是随机的，所以有概率"对上"也有概率"反着来"。我的做法是：先用0.6生成一版，听一遍。如果大部分地方的音调起伏是对的，就用；如果不对，调到0.58或0.63重新生成——稳定性变一点点，出来的音调走势就完全不同。

老实讲，这个过程有点像在抽卡。你没法精确控制哪个字高哪个字低（除非用SSML单独标注每个字的音调，但那工作量太恐怖了）。但多试几次总能出一版满意的。我做500首诗的项目，平均每首生成3.2次才定稿。

音色选择：不是所有声音都适合读诗

诗词朗诵对音色的要求是"清、厚、有磁性"——过于年轻的声音撑不住意境，过于尖锐的声音破坏美感。男声选中低音区、带胸腔共鸣感的音色，女声选中音区、温润不尖的音色。

这一点我个人觉得比参数调节还重要。底色选错了，后面怎么调都别扭。

就像唱歌一样——你让周杰伦唱京剧？技术上可以，听感上灾难。声音底色跟内容气质要匹配。

我在FlowPix上试过十几个音色读同一首《将进酒》，最后挑出来的是一个标注为"浑厚男中音"的音色。为什么？因为《将进酒》是李白醉酒后的豪放狂歌，需要那种"声音里带着一壶酒"的粗犷感。用清亮的男高音读"天生我材必有用，千金散尽还复来"，出来的效果像个刚毕业的播音系学生在朗诵比赛上背课文——字对，味儿不对。

几个选音色的原则：

豪放诗词（李白、苏轼、辛弃疾）→ 浑厚男声、稍微带一点沙哑的更好。
婉约诗词（李清照、纳兰性德）→ 温润女声或者质感温柔的男声都行。
田园诗（陶渊明、王维）→ 平和淡然的中性音色，不要太有"表演感"。
边塞诗（王昌龄、高适）→ 刚硬的男声，稳定性可以拉高一些让声音更"硬"。

有个小技巧：同一个音色底色，如果你把风格夸张度从0.2提到0.4，听起来"戏剧感"会增强很多——特别适合比较激昂的诗句。但日常的山水田园诗就别用高夸张度了，会显得过于做作。具体怎么调参数可以参考AI配音自然度参数技巧这篇。

背景音乐：很多人忽略但极其重要的一层

诗词朗诵加上合适的背景音乐，听感提升不是10%而是翻倍。古风BGM的选择原则：器乐为主（古筝、笛子、琵琶）、节奏要慢于朗诵语速、音量压到朗诵音量的15%-25%。

我试了下——同一段朗诵，有BGM和没BGM的评分差异（找了20个人盲测打分）：无BGM平均6.3分，有合适BGM平均8.1分。差距将近两分。

但！BGM选错了不如不加。

我犯过一个特别蠢的错误：给李清照的《声声慢》配了一段琵琶曲。你可能觉得"琵琶+宋词，没毛病啊"。问题是那段琵琶曲的节奏太快了，是《十面埋伏》那种杀气腾腾的路子。配上"寻寻觅觅，冷冷清清，凄凄惨惨戚戚"——你品，你细品。

后来换成了一段缓慢的古琴独奏，效果立刻对了。

BGM的音量控制也有讲究。太大会抢朗诵的风头，太小等于没有。我的经验值是：用音频编辑软件把BGM的音量压到-12dB到-16dB之间（相对于朗诵的音量），大约是朗诵音量的15%-25%。让BGM在背景里若有若无、像一层薄雾一样铺着，听者的注意力仍然在朗诵上，但潜意识能感受到氛围。

关于音频生成的完整流程可以参考AI配音文本转音频教程，里面也讲了怎么把配音和BGM合成到一起。

不同诗体的参数差异

不是所有古诗词都该用同一套参数。不同诗体的节奏结构差异很大，参数得跟着变。

我把自己用过的参数按诗体整理了一下：

诗体	语速	稳定性	夸张度	停顿标注重点
五言绝句	0.82x	0.6	0.25	二三断为主，句间停0.5s
七言绝句	0.85x	0.6	0.3	四三断或二二三断，根据语义
五言律诗	0.83x	0.62	0.25	颔联颈联对仗处节奏要一致
七言律诗	0.86x	0.62	0.3	同上
豪放词	0.88x	0.55	0.45	长短句自然断，高潮处可加速
婉约词	0.8x	0.63	0.2	多留白、多长停顿
古体诗/乐府	0.84x	0.58	0.35	叙事节奏，停顿跟意群走

这个表可以直接拿去用，但别当成死规矩。具体到每首诗还是要根据内容微调。比如同样是五言绝句，王维的"空山不见人"和李白的"朝辞白帝彩云间"——前者需要更慢更静，后者需要更明快更飞扬。参数得跟着意境走。

对了，有个很冷门但好用的技巧想单独拎出来说。

押韵的字——就是每句末尾那个韵脚——你可以在它前面加一个很短的停顿（150-200ms），然后让AI稍微把这个字"拖"一下。怎么拖？在韵脚字后面加一个破折号或省略号。比如"白日依山尽——"，AI读到"尽"这个字会自然延长一点点尾音。

这个细节非常小，但效果巨大。因为诗词朗诵的美感很大程度来自于韵脚的回环感——就像音乐的和弦终止式一样，韵脚是一句诗的"落点"，稍微强调一下就能让整句诗"收住"。

专业朗诵播音员都会在韵脚上做处理，只是他们靠本能和经验，我们靠标点符号和标签。目标一样，路径不同。

批量生产的工作流

做大批量诗词配音（比如100首以上），一定要先建标准化工作流：文本预处理（断句标注）→ 参数模板匹配 → 批量生成 → 质检回听 → 问题件重生成 → BGM合成。

我那个500首诗的项目，实际工作流是这样的：

第一步，拿到诗词原文后先分类——五绝、七绝、五律、七律、词、古体，每类对应一套参数模板。这步大概花了2小时。

第二步，断句标注。这是最耗时的。500首诗，每首平均4-8句，每句都要手动标注停顿位置和长度。我找了一个中文系的实习生帮忙，两个人一起干了三天。没错，三天——这是整个项目里最"人工"的环节。

第三步，用FlowPix的批量功能生成音频。500首诗分成7个批次跑完的，每批次大概70首，跑一批大概40分钟。

第四步，质检。每首回听一遍确认效果。这个没法偷懒——AI偶尔会在某个字上"打结"（读错音或者节奏突然乱掉），不听你发现不了。500首里大概有80首需要重新生成（约16%的返工率）。

第五步，合成BGM。按诗的类型匹配不同的背景音乐（豪放配鼓+笛、婉约配古筝+琴、田园配纯古琴），统一调好音量，导出成品。

整个项目从启动到交付用了大约12个工作日。如果请真人配音员录500首诗——按每天录30首的速度算（已经很快了），光录音就得17天，还不算后期剪辑。

几个容易被忽略的细节

多音字是古诗词配音的重灾区。"远上寒山石径斜"的"斜"在古音里读xiá不读xié，但大部分AI工具只认现代发音。解法：查古音读法，在文案里直接用同音字替代。比如把"斜"写成"霞"——AI读出来发音一样，听者听到的效果就对了。

这招虽然有点"作弊"，但很管用。FlowPix支持部分古音词库，常见的古音字可以自动识别，但冷门的还是得手动处理。

入声字是另一个坑。古汉语里入声字发音短促有力（比如"白""月""国""客"），但现代普通话已经没有入声了。AI用普通话读这些字会拖长，丧失原本的顿挫感。目前没有完美解法——你可以试试在入声字后面加一个很短的break（100ms），制造一点人工的"顿"感，效果勉强能接受。

还有个事关于风格调节——朗诵诗词的时候不要用AI配音风格调节指南里讲的"新闻腔"参数。我看到有人这么干，出来的效果就是"播音员在念一首诗"——技术层面无可挑剔，但跟诗词该有的气质完全不搭。诗词朗诵需要的是"吟诵感"而不是"播报感"，这两种东西差得很远。

写在最后

用AI给古诗词配音这件事，说到底是一场"技术"和"文学"的跨界碰撞。技术上它已经能做到八九成——语音清晰、可控、成本低。但剩下的一两成——对诗歌意境的理解、对韵律节奏的把握、对情感分寸的拿捏——这些还得靠人来补。

AI是一支很好的毛笔。但书法的好坏不取决于笔，取决于握笔的人。

我个人觉得现阶段AI诗词配音最适合的场景是"量大、质量要求中等偏上"——比如国学APP里的几百首诗词音频、学校的古诗词听力素材、短视频平台上的诗词类内容。如果你要做的是那种参加比赛或者出版发行级别的精品朗诵，还是建议请专业的人来。AI做80分很容易，但从80分到95分那段路，人类仍然遥遥领先。

不过话又说回来，80分已经够用了——对于绝大多数内容创作者来说。你的用户/观众在意的是"能不能听、好不好听"，不是"这是人录的还是AI录的"。

如果你也在做诗词类的内容，PPT配音的场景可以看这篇PPT添加AI配音旁白指南，里面讲的配音嵌入方法同样适用于课件和教学场景。

觉得有用就分享给你身边爱诗词的朋友吧——特别是那些做国学号、教育号的，这套方案能帮他们省下不少配音预算。有什么关于诗词配音的问题也欢迎留言，这个细分领域研究的人不多，能交流交流也挺好的。

常见问题

AI能读准古诗的平仄吗?

大部分工具按现代普通话读，不会自动按格律替你"踩拍子"。想贴近传统听感，只能靠断句、停顿长短和个别同音替换来模拟，平仄本身还得靠人耳去调。别期待一键还原吟诵腔，那是人和文本功课，不是模型开关。

哪个工具读古诗最有韵味?

没有绝对冠军，和音色、引擎中文韵律有关。建议你挑两三家支持情绪与停顿细调的工具，用同一首诗做盲听对比——谁更稳、少吞字，就比谁参数花里胡哨更重要。韵味往往是调出来的，不是选出来的。

AI朗诵能用于学校教学吗?

课堂示范、跟读素材、拓展阅读一般没问题，注意商用授权和版权来源即可。若涉及考试示范或正式出版，最好先和学校或出版社确认要求，必要时保留人工示范作对照，让学生知道机器朗读的边界在哪里。

古诗里的多音字怎么处理最省事?

先查本首诗里争议字的常见读法，能改同音字替换的就替换，不能换的用拼音或拆词标注给引擎。批量项目里建一份本册多音字表，比逐首临时搜要省心，也不容易前后不一致。