教程

原神配音AI配音怎么做？3款工具做出角色同款声音

FlowPix Team 发布于 2026-04-15 更新于 2026-06-21 2,118 字

简单说：原神AI配音用RVC效果最好，钟离和雷电将军的音色还原度能到85%以上。但注意，做同人玩玩没问题，商用有侵权风险。

你有没有刷到过那种原神角色说搞笑台词的视频？钟离一本正经地念土味情话，雷电将军霸气地说"我要吃火锅"——说实话我第一次看到的时候笑到不行，然后就开始研究怎么做的。

搞了一周，踩了无数坑，现在把成果分享出来。

原神AI配音的原理

原神AI配音用的是声音克隆技术，核心原理是"用角色原声训练AI模型，然后让AI模仿这个声音说话"。

简单说就是3步：收集角色台词音频 → 训练AI模型 → 输入新文案让AI用角色声音读出来。

目前效果最好的技术是RVC（Retrieval-based Voice Conversion），比之前的So-VITS-SVC在音质和稳定性上都有明显提升。训练一个角色模型大约需要3-10分钟的干净音频素材和30分钟到2小时的训练时间。

RVC是目前做原神AI配音效果最好的开源工具，音色还原度能达到80-90%。

我实测了几个热门角色：

操作流程：

注意——训练模型需要NVIDIA显卡，至少6GB显存。我用的RTX 3060（12GB），训练5000步大约45分钟。如果你没有显卡，可以用 Google Colab 免费跑，不过速度会慢一些。

我第一次训练钟离模型的时候出了个乌龙——忘了把背景音乐去掉，训练出来的模型说话自带BGM..后来学会先用Audacity把人声提取出来再训练，效果好了很多。

So-VITS-SVC是最早被广泛使用的声音克隆工具，效果不如RVC但社区资源更多。

优势是现成的原神角色模型特别多，GitHub和B站上能找到几十个角色模型直接下载用。缺点是音质比RVC差一截，长句容易崩。

我拿同一个钟离台词测试了RVC和So-VITS-SVC：

个人建议——如果你不想自己训练模型，So-VITS-SVC的现成模型更方便。如果追求效果，还是RVC。

Fish Audio是线上平台，不用装任何软件，上传音频就能训练模型，适合不想折腾的人。

操作超简单：注册账号 → 上传3-5分钟的角色音频 → 等训练完成 → 输入文案生成。全程在浏览器里完成。

不过有几个问题：

说实话，Fish Audio适合"想试试但不想花时间学技术"的人。如果你是认真要做原神AI配音视频，还是建议学RVC。

搞了一周，翻车次数比成功次数多。说几个我踩过的坑：

对了，根据米哈游原神官网的用户协议，游戏音频素材的使用是有版权限制的。非商用同人创作一般没问题，但别拿来做商业内容。

非商用同人创作一般不会被追究，但用原神角色声音做商业内容（接广告、卖周边等）存在侵权风险。米哈游官方对同人创作比较宽容，但底线是不要商用。

钟离和雷电将军的效果最好，因为训练素材多、声音辨识度高。派蒙和可莉这类高音角色效果较差，AI容易失真。

自己训练模型需要NVIDIA显卡（至少6GB显存），但用别人训练好的现成模型做推理，4GB显存就够了。没显卡可以用Google Colab免费跑。

原神AI配音确实好玩，我做出来的钟离模型在朋友圈被转了好多次。但技术门槛不低，想出效果得花时间调。RVC是目前的最佳选择，没有显卡就用Fish Audio先玩起来。FlowPix之前也写过RVC声音克隆的完整教程，想深入了解可以去翻翻。

觉得有用的话分享给朋友吧。