AI 绘画

AI修图术语大全：从去噪到超分，一文搞懂所有专业词条

FlowPix Team 发布于 2026-06-23 更新于 2026-06-24 2,549 字

简单说：这篇AI修图词条大全整理了50多个核心术语，从去噪算法到语义分割全覆盖，看完就能听懂AI修图在说什么。

刚接触AI修图那会儿，我被各种词条整得晕头转向。去噪、超分、语义分割、GAN、扩散模型……每个词都认识，连在一起就不知道在说什么了。有一次在群里跟人讨论AI修图应用，对方扔出来一句"这个模型的PSNR和SSIM都不错"，我当场愣住，默默去百度了十分钟。说实话AI修图领域确实有很多专业术语是从计算机视觉论文里直接搬过来的，对普通人不太友好。这篇词条整理了我花了大半年才搞明白的所有核心概念，用大白话解释清楚。

基础类：去噪、超分、增强

去噪是去掉照片里的颗粒感，超分是提升分辨率，增强是综合优化色彩和对比度。去噪（Denoising）是AI修图使用频率最高的功能之一。手机在暗光下拍照ISO飙到3200以上，照片会有密密麻麻的彩色颗粒，这就是噪点。传统去噪本质是模糊处理，噪点没了细节也没了。AI去噪则用卷积神经网络学习过数百万张高清和低清图像对，能区分噪点和真实细节，只去除噪点而保留纹理。我拿一张ISO 12800的夜景照片测试，AI去噪后面部毛孔依然清晰，传统去噪则糊成一片。超分（Super Resolution）指把低分辨率图片放大到高分辨率。比如把720p的老照片放大到4K，AI会通过扩散模型逐像素重建缺失的高频信息。目前主流超分模型包括ESRGAN和Real-ESRGAN，后者对人脸的还原效果更好。根据Papers With Code排行榜，Real-ESRGAN在人脸超分任务上的NIQE分数达到了3.79，是目前开源模型中的最好成绩之一。增强（Enhancement）是个大筐，包含了自动白平衡、自动曝光、自动对比度等综合优化，一键让照片变通透。

进阶类：语义分割、实例分割、深度估计

语义分割是把照片中的不同物体按类别分开，实例分割更进一步区分同类中的不同个体，深度估计是推测照片的三维空间信息。语义分割（Semantic Segmentation）让AI能理解照片内容。比如一张街拍照片，AI会把天空、建筑、行人、路面分别标记为不同的语义区域。这个技术是AI修图中背景替换和局部调色的基础——AI知道哪里是天空所以能单独调整天空的颜色而不影响建筑。实例分割（Instance Segmentation）更精细，不仅区分"人"和"车"，还能区分"第一个人""第二个人"。你去掉照片中某个特定路人就靠这个技术。深度估计（Depth Estimation）是AI修图中容易被忽略但非常重要的能力。AI通过单张照片推测每个像素距离镜头的远近，生成深度图。有了深度图，AI可以把背景虚化做得比手机自带的假虚化自然得多，因为它是基于真实空间关系来模拟景深而不是简单画个模糊圈。FlowPix的人像模式就内置了深度估计模型，虚化过渡从近到远是渐进的，不会出现边缘切割感。如果想了解更多，AI细化修图有更深的技术拆解。

模型类：GAN、扩散模型、Transformer

GAN通过生成器和判别器对抗训练来生成图像，扩散模型通过逐步去噪来生成，Transformer擅长全局上下文理解。GAN（生成对抗网络）是AI修图早期的主力军，由一个生成器和一个判别器组成。生成器负责造图，判别器负责挑刺，两者对抗训练最终让生成器能输出以假乱真的图像。StyleGAN系列在人脸生成和编辑上表现惊艳，但GAN有个致命弱点——训练不稳定容易模式坍塌。扩散模型（Diffusion Model）是近年来的新王者。它的原理很有意思：先把一张照片逐步加噪直到变成纯噪声，再训练AI学会从噪声逐步恢复成清晰图像。修图时输入的是一张有缺陷的照片，扩散模型在去噪过程中顺便把缺陷也修复了。Stable Diffusion和DALL-E都是基于扩散模型。Transformer最初用于自然语言处理，现在也被用到图像修图中。它的优势是能理解图像中远距离的上下文关系，比如修复一张被遮挡的人脸时，Transformer可以参考未被遮挡的对称部位来推理补全。说实话这个方向还在快速发展，每个季度都有新模型横空出世。《IEEE Transactions on Image Processing》2025年的综述指出，扩散模型在图像修复任务上的FID分数比GAN平均低了18%，意味着生成质量显著提升。

评估类：PSNR、SSIM、FID、LPIPS

PSNR和SSIM是传统图像质量指标，FID和LPIPS是更适合AI修图评估的感知质量指标。PSNR（峰值信噪比）是最古老的图像质量指标，计算修复图和原图像素级的差异，单位是dB。PSNR超过30dB就算不错了。但这个指标有个大问题：它只看像素差异不看视觉感受。一张稍微模糊但PSNR很高的图，人眼看起来可能不如一张细节丰富但PSNR略低的图。SSIM（结构相似性）改进了这一点，除了亮度对比度还考虑了结构信息的保留程度，比PSNR更贴近人眼感受。FID（Fréchet Inception Distance）是目前AI修图领域最主流的评估指标，它用预训练的Inception网络提取图像特征，然后比较修复图和真实图特征分布的距离。FID越低越好，10以下算优秀。LPIPS（Learned Perceptual Image Patch Similarity）是目前最贴近人类主观感受的指标，它也使用深度学习特征，但更关注感知层面的差异而非统计分布。我个人在对比不同修图工具时，会用LPIPS作为主要参考，因为它的打分跟我肉眼看到的体验最一致。如果想看具体数字，最新AI修图工具的横向评测里有一些实测数据可以参考。

常见问题

AI修图术语里哪些是必须搞懂的？

至少搞懂去噪、超分、语义分割、扩散模型这四个核心概念，足够理解90%的AI修图产品功能和评测文章了。

为什么不同工具对同一个术语的定义不一样？

部分厂商喜欢把已有的技术概念重新包装成营销术语，比如把"局部亮度调整"叫"AI光影重塑"，核心还是语义分割加自适应曝光。

学这些术语对实际修图有帮助吗？

有。理解了术语背后的原理，你在调参数时就知道每个滑块在做什么，而不是盲目拉来拉去碰运气。

觉得有用的话分享给朋友吧。