AI 绘画

AI修图技术来源解析：从学术实验室到手机App的技术演进之路

FlowPix Team 发布于 2026-06-24 4,144 字

简单说：AI修图技术主要来自三条路线——学术界的基础研究（GAN、Diffusion、Transformer三大架构）、开源社区的工程化落地（Stable Diffusion、ControlNet、ComfyUI）、商业公司的产品化封装（Adobe Firefly、Google Magic Editor、苹果Clean Up）。三条线各自贡献了AI修图能力的不同部分。

很多人用AI修图的时候可能没想过一个问题：你点一个按钮、照片就变好看了——这背后到底发生了什么？说实话我用了两年AI修图才开始认真思考这件事。起因是有一次用某款修图App的"一键美化"，出来的效果诡异到让人头皮发麻——人脸是美了但背景里的建筑变成了扭曲的怪物。我当时就想搞清楚：是什么决定了AI修图有时候神、有时候鬼？顺着这个问题挖下去，发现答案藏在AI修图技术的三个源头里。理解这三条源头线，不仅能帮你选对工具，还能帮你在AI修图翻车时判断——是操作问题还是技术天花板。

来源一：学术界——三大模型架构撑起AI修图的骨架

今天所有AI修图工具的底层都建立在三大模型架构之上：GAN（生成对抗网络，2014年）、Diffusion（扩散模型，2020年）、Transformer（自注意力架构，2017年）。这三种架构各自擅长不同的修图任务。

GAN是最早进入修图领域的AI架构。它的思路很直白：一个生成器负责"造假"（生成修图后的图片），一个判别器负责"打假"（判断这张图是真的还是修的）。两个模型互相对抗、共同进化。GAN最擅长的是"对已有照片的局部修改"——比如去痘印、去皱纹、换发型。因为它不需要把整张图重新画一遍，只需要修改判别器觉得"假"的那些像素。2017年NVIDIA的pix2pix论文就是用GAN做的图像翻译（白天转黑夜、线稿转实物），这篇论文至今还被大量修图工具引用。

Diffusion模型是2020年以后统治修图领域的技术。它的工作方式完全不同——先给一张清晰照片不断叠加噪点直到变成完全随机的噪点图，然后训练AI学会"从噪点中还原照片"的过程。一旦AI学会了这个"去噪"能力，你给它一张有瑕疵的图，它就能像去掉噪点一样去掉瑕疵。Diffusion在"创造新内容"方面远胜GAN——比如给空白背景加一棵树、给空旷天空加云朵、把阴天变成夕阳。GAN加不出来的东西Diffusion能加。2022年Stable Diffusion开源后，Diffusion技术从学术界涌入工业界的速度惊人。到2025年，学术顶会CVPR和ICCV上约65%的图像生成/修图论文都基于Diffusion架构。

Transformer原本是做自然语言处理的（ChatGPT用的就是它），但在2020年Google的ViT（Vision Transformer）论文之后被大规模应用到图像领域。Transformer在修图中的角色更像是"大脑"——它负责理解照片里的内容是什么（这是一张人像、背景是海滩、光线来自左上角），然后告诉GAN或Diffusion应该怎么修。内容理解越准，修图效果越合理。

不懂这些不影响修图操作，但懂了之后你会理解为什么某些修图任务用某些工具就是好、换别的就是差。因为底层架构的选择直接决定了能力边界。

来源二：开源社区——从实验室到每个人手机的关键推手

如果没有开源社区，AI修图现在还是大公司的内部工具，普通人根本用不上。2022年8月Stability AI开源了Stable Diffusion，这几乎是AI修图发展史上最重要的事件——没有之一。

在此之前，AI图像生成和修图技术基本上被几个巨头垄断。OpenAI有DALL-E但不公开、Google有Imagen但不发布、Midjourney效果好但要付费。SD开源之后发生了几件事：

全世界任何有GPU的人都可以在自己电脑上跑AI修图了。ControlNet（2023年2月发布）让用户能精确控制AI修图的区域、形状和结构——这是一个里程碑式的修图功能。之前你只能给AI文字描述"把这面墙变成红色"，ControlNet之后你可以精确告诉AI"这面墙是要修的区域，它的边缘在哪里，保持原来的结构只改颜色"。

ComfyUI（2023年）把AI修图从"写代码"变成了"搭积木"——你拖拽节点就能搭建复杂的修图流程。IP-Adapter（2023年底）解决了人脸一致性的大难题——之前AI修图最头疼的就是修完人脸不像本人，IP-Adapter从根本上改善了这个问题。

这条开源路线创造了一个庞大的生态系统。截至2025年底，Hugging Face上有超过2万个与图像编辑相关的开源模型，Civitai上有超过10万个社区训练的修图风格模型（LoRA）。这些开源资源是大多数中小型AI修图工具的"技术来源"——他们不需要从零开发AI，只需要在开源模型的基础上做产品化和体验优化。想要了解开源生态的全貌，可以参考AI修图开源资源的整理。

来源三：商业公司——把技术封装成产品的最后一步

商业公司不一定是技术发明者，但他们是技术民主化的关键角色——把学术界和开源社区的研究成果封装成"点一下就能用"的产品。

三家公司的技术路线很不一样：

Adobe走的是"专业工具AI化"路线。Photoshop里最早就有基于传统计算机视觉的内容识别填充（Content-Aware Fill），2023年Adobe Firefly推出后全面转向生成式AI。Firefly的训练数据来自Adobe Stock的授权图片——这个数据的合法性和质量是它的核心壁垒。Photoshop的Generative Fill（生成式填充）功能底层用的是Firefly模型，这是目前商业化最成熟的AI修图功能之一。

Google走的是"移动端AI化"路线。Magic Editor（魔法编辑器）直接内置在Google Photos里，不需要用户安装任何额外软件。Google的技术优势在于TPU芯片和超大规模的训练数据（Google图片搜索积累了全球最大的图片数据集之一）。Magic Editor的能力包括：移动照片中的人物位置、改变天空颜色、去除背景杂物——三件事都在手机上完成，不依赖云端。

苹果走的是"隐私优先的端侧AI"路线。Clean Up功能在设备本地运行AI模型，照片不会上传到任何服务器。这是技术和隐私的极限平衡。苹果的AI修图能力目前落后于Adobe和Google——功能更少、效果更保守——但它在隐私保护上建立了差异化优势。

根据The Information的报道，2025年全球AI图像编辑市场的规模约为48亿美元，Adobe占其中约31%的份额，Google和苹果加起来约占18%，其余由大量中小型公司瓜分。商业公司之间的竞争加速了AI修图技术的迭代——毕竟谁也不想在财报会上被问"你们的AI修图为什么不如竞争对手"。了解更多商业应用的情况可以看AI修图公司的分析。

三条来源线的耦合——一个修图操作的完整旅程

你点一下"去除背景杂物"按钮，触发了来自三条技术来源的无缝协作：学术界的Transformer模型分析照片内容（识别出"背景有一个垃圾桶"），开源社区的Diffusion模型执行去除和填充（把垃圾桶区域替换为干净的背景），商业公司的工程团队保证了这一切在0.5秒内完成并且不会崩溃。

这就是为什么AI修图工具的质量差距可以很大——三条线中任何一条弱都会拖累整体效果。有的工具用了最新的学术架构但工程实现粗糙（卡顿、闪退），有的工具工程体验流畅但底层模型过时（效果差、像十年前的滤镜），有的工具模型和工程都好但缺乏好的产品设计（功能强大但用户不知道怎么用）。

选AI修图工具的时候，不需要看懂论文，但可以关注一个指标——工具背后的团队有没有持续跟进学术界的进展。如果你发现某款AI修图工具半年没更新过功能了，那它的底层模型可能已经落后了两代。在AI修图领域，落后两代的效果差距肉眼可见。

顺便说一句，FlowPix的技术栈也是这条三源路线——底层用改进的Diffusion架构做图像生成、中间层用自研的控制网络做精确修图定位、上层用简洁的产品界面封装。开源社区贡献了大量训练优化和推理加速方案，学术界的最新论文会定期评估和集成。这套技术框架的更详细说明在AI修图技术架构中。

常见问题

AI修图技术最早是从哪里开始的？

学术论文。2014年Ian Goodfellow提出的GAN（生成对抗网络）是AI图像生成的奠基性工作。之后2015年的Neural Style Transfer（风格迁移论文）首次实现了"把一张照片变成梵高风格"。到2020年DDPM（去噪扩散概率模型）论文发表，才真正开启了今天我们看到的高质量AI图像生成和修图时代。

为什么有的AI修图效果好有的很差？

差距来自三个方面：训练数据的质量和规模、模型架构的先进程度、工程实现的精细度。顶级AI修图工具通常使用数亿到数十亿张高质量图片训练，模型参数在10亿以上。而效果差的工具可能用了过时的小模型和低质量数据。

免费AI修图工具的技术来源是什么？

主要来自开源社区——Stable Diffusion及其衍生模型是最主要的来源。很多免费修图App的后端就是部署了开源的SD模型加上自研的调参和UI层。少部分来自学术界的公开模型（如Real-ESRGAN用于超分辨率、Rembg用于抠图）。

用户需要了解AI修图的技术来源吗？

不需要深入了解，但了解基本概念有帮助。你不需要知道Diffusion模型的反向传播公式，但知道你的修图工具背后用的是哪类技术（比如是基于GAN还是Diffusion），能帮你理解为什么某些功能效果好、某些功能翻车——以及翻车的时候是自己操作问题还是技术本身的局限。

花了几个晚上把AI修图的技术来源理了一遍。学这些不是为了写论文，是为了每次修图翻车的时候心里有数——这不是我操作的问题，是Diffusion模型在面对半透明材质时天生就弱。知道工具的边界，才能用好工具。觉得这篇文章涨知识了就转发吧，说不定你朋友圈里也有人好奇修图按钮背后到底发生了什么。