教程

AI相声配音怎么玩？用AI做对口相声和单口搞笑配音的方法

FlowPix Team 发布于 2026-06-18 更新于 2026-06-19 2,642 字

简单说：AI相声配音的精髓在节奏和角色切换。对口相声用两个不同音色——逗哏偏活泼、捧哏偏沉稳。包袱前后必须留停顿，没停顿笑点就闷了。快板部分AI跟不上标准节奏，得后期对齐。但整体做搞笑段子和相声短内容的完成度已经很好了。

AI相声配音怎么玩？用AI做对口相声和单口搞笑配音的方法

AI相声配音这事，你乍一听可能觉得离谱——机器能说相声？它不是得

对口相声的双角色切换是全流程里最麻烦但最出效果的步骤

相声是两个人的艺术。逗哏和捧哏，一个负责抛、一个负责接。用AI做对口相声，你得先想清楚一个问题：怎么让观众听出来是两个人在说话？

声音的区分靠音色差异。逗哏一般用偏高频、年轻活泼的男声——听起来机灵、嘴皮子利索。捧哏用偏中低频、稳重的男声——憨厚但不傻，是那种"我在旁边看你表演"的感觉。这两个音色的对比要足够大，观众不用看屏幕就知道谁在说话。如果两个音色太接近，听感上就是一个人自言自语。

我用的做法是：文本先写好，每句前面标记"逗："或"捧："，然后在FlowPix里分别用两个音色来朗读同一段对话的不同部分。逗哏的语速设1.05到1.1倍，嘴皮子快的效果；捧哏的语速设0.95到1.0倍，稳中带悠。两个声道分别生成，最后用音频编辑软件拼在一起——这个拼接步骤大概占整段制作时间的40%。

说实话，第一次做的时候我天真地以为可以直接在同一个文本里标注音色切换，TTS引擎会自动识别。试了一下发现不行——AI会读出"逗号"这个词然后再继续。血的教训。

包袱（笑点）的节奏控制：少停一秒就白说

说相声最怕什么？包袱没抖响。AI说相声最怕什么？节奏全是平的。

包袱的结构其实很简单：铺垫——（短停）——抖包袱——（长停给笑声）。铺垫部分的语速正常偏快，制造一种"我在认真说一件事"的感觉。短停大概0.3到0.5秒，不长，但足够听众的注意力集中。然后抖包袱——这句话要突然，语速可以微微加快，音高稍微抬高。最后是长停——0.8到1.5秒——等观众笑。这个停顿如果没了，观众的脑子还来不及"get到"笑点就被下一句冲走了。

AI本身是没有节奏感的。它读的每一句都是匀速的。所以你必须手动在文本里插入停顿标记。我的做法是在包袱句前面加省略号或者SSML的break标签（<break time="400ms"/>），包袱后面加更长的break（800ms到1200ms）。做了大概二十几条相声配音之后，这个节奏感基本就长在肌肉记忆里了，不用刻意去想。

做成龙配音AI那种动作搞笑风格的时候，包袱的节奏又不太一样——动作片的笑点通常是视觉和声音同时爆发，停顿不是给笑声用的，是给动作的反应时间。这个区别挺微妙的。

文本创作是AI相声的灵魂——AI不会写相声，它只会念

很多人以为AI能自动生成相声段子。不能。至少目前不能。AI能帮你读文字，但写好笑的对白——那是你的活儿。

写相声风格文本有几个门道。一个是"绕"——逗哏说一句看似有道理的话，捧哏质疑，逗哏再解释，越解释越离谱，最后捧哏来一句"合着您是这么个理儿"。这个"绕"的过程AI读出来节奏天然有趣，因为是一问一答的格式。

另一个是"贯口"——快速的报菜名、报地名。这部分AI反而是强项，因为贯口不要求情感，只要求速度和准确度。你把一百道菜名列出来，AI能一字不差、一口气读完，而且速度还可以调到1.3倍。真人的贯口表演者练几个月的东西，AI三十秒就念完了（当然，少了表演的灵魂，但听着爽）。

根据大学生创业网的数据，短视频平台上搞笑配音类内容的用户时长同比增长了37%，其中AI配音在搞笑内容中的占比从去年的8%涨到了今年的大约22%。这个增长说明观众对AI搞笑配音的接受度在快速提升。

做搞笑配音还可以参考AI曹操配音的反差思路——让三国的曹操说东北话段子，那种跨时空的违和感本身就是笑点。

单口喜剧和快板：两种不同的AI挑战

单口喜剧（脱口秀）用AI做比对口相声简单一些——一个人嘛，不用切换音色。但单口的难点在语气。脱口秀的表演者通常语速快、停顿随意、情绪起伏大。AI读脱口秀文本最大的问题就是太"正"了——笑话读成了公告。

解决办法是给AI加"人味儿"。具体做法：在文本里加入口语词——"对吧"、"你知道吗"、"我跟你讲"这种——以及故意加入一些不完整的句子，模拟即兴的感觉。还有一个小技巧：在"梗"的地方把语速稍微放慢而不是加快。真人说笑话的时候，最搞笑的那句往往不是最快的，而是慢下来、盯着你、一个字一个字说的。AI也能模拟这个——用SSML把关键句的语速降到0.85倍。

快板配音是另一回事。理论上AI可以快速朗读，但让它每个字都落在节拍上几乎不可能。我的做法是：先生成快板的节奏音轨（用节拍器或者快板音效），然后让AI用1.2到1.3倍语速朗读快板词，输出后在音频软件里手动微调每个字的位置，对齐节拍。这个方法很费时间——一段30秒的快板大概要调15到20分钟。但出来之后听着确实是那么回事。

FlowPix有个节奏模式功能对这个对齐过程帮助很大，它可以自动检测文本的音节分布并给一个推荐的语速档位。虽然不是完美的自动对齐，但至少把初始偏差缩小了很多。

做武侠AI配音的时候我也用过类似的节奏对齐思路——武侠念白的韵律感，跟快板的节奏感在本质上是一样的，只是一个偏庄重一个偏诙谐。

常见问题

AI能做对口相声吗？两个AI怎么对话不违和？

能做，但需要两个不同的音色来回切换。通常逗哏用偏高频的活泼男声，捧哏用偏中低频的沉稳男声——这个对比能让观众一听就知道谁在说话。关键技巧是在文本里严格标注角色前缀（"逗：""捧："），然后分批调用API用不同音色朗读，最后在音频编辑软件里拼起来。

AI相声配音的包袱节奏怎么控制？

包袱（笑点）前通常需要一个短停顿制造期待感，包袱后的停顿要给观众笑的时间——大约0.8到1.2秒。做AI相声配音时，在文本里用省略号或SSML break标签手动插入这些停顿。没有停顿的话包袱就闷了，观众来不及反应就直接进入了下一句。

快板配音AI能做吗？节奏感够不够？

标准快板的节奏AI很难完全跟上——因为快板要求每个字都落在节拍上，而AI的语速控制做不到那么均匀。但如果你先用节拍器录好快板背景音，然后让AI用相应速度读词，再把两者对齐，出来的效果七八成是有的。FlowPix有专门的节奏模式可以辅助这个对齐过程。

觉得有用的话分享给朋友吧。