AI 资讯

AI修图算法揭秘：背后的GAN、扩散模型是什么

FlowPix Team 发布于 2026-02-13 更新于 2026-03-10 1,959 字

简单说：AI修图主要用GAN和扩散模型两种技术。GAN早几年流行，用于去噪、超分、风格迁移。扩散模型是现在的主流，Stable Diffusion、DALL-E都是。效果更好，但更吃算力。

AI修图背后是什么？

很多人好奇，一张照片扔进去，AI怎么就知道怎么修。FlowPix编辑部查了资料、问了做算法的朋友，用大白话讲清楚。

GAN：对抗生成

GAN就是两个AI打架，一个负责生成假图，一个负责鉴别真假。打到最后，假图越来越真。

Generator 生成假图，Discriminator 判断真假。Generator 想骗过 Discriminator，就得不断改进。这种对抗训练出来的模型，能生成很逼真的图像。

早期的 AI 换脸、风格迁移、去噪很多用 GAN。比如 Topaz 的部分算法、GFPGAN 人脸增强。GAN 的问题是训练不稳定，容易崩。

扩散模型反过来想——先给图加噪声，再让AI学怎么去噪。学好了，从纯噪声也能"去噪"出有意义的图。

训练时：给清晰图加噪声，加到最后变成纯噪声。AI 学这个过程的反向——从噪声恢复清晰图。推理时：从随机噪声开始，一步步去噪，最后得到图像。

Stable Diffusion、DALL-E、Midjourney 都用扩散模型。效果比 GAN 好，细节更丰富，训练更稳定。但算力需求大。

抠图用分割模型，降噪用去噪网络，风格迁移用风格转换模型。不同任务用不同技术。

remove.bg 的抠图是语义分割——给每个像素分类，是主体还是背景。Topaz DeNoise 是去噪网络，学的是"噪声长什么样"然后减掉。风格迁移有的用 GAN，有的用扩散模型的 Img2Img。

FlowPix编辑部觉得：用户不用懂技术，知道"AI 是学出来的"就行。效果好不好，试了就知道。

根据arXiv论文统计，2024-2025年图像生成领域扩散模型论文占比超过60%，GAN 占比下降。想了解技术趋势看AI修图趋势，电脑配置看AI修图配置。