AI修图术语大全:从去噪到超分,一文搞懂所有专业词条
简单说:这篇AI修图词条大全整理了50多个核心术语,从去噪算法到语义分割全覆盖,看完就能听懂AI修图在说什么。
刚接触AI修图那会儿,我被各种词条整得晕头转向。去噪、超分、语义分割、GAN、扩散模型……每个词都认识,连在一起就不知道在说什么了。有一次在群里跟人讨论AI修图应用,对方扔出来一句"这个模型的PSNR和SSIM都不错",我当场愣住,默默去百度了十分钟。说实话AI修图领域确实有很多专业术语是从计算机视觉论文里直接搬过来的,对普通人不太友好。这篇词条整理了我花了大半年才搞明白的所有核心概念,用大白话解释清楚。
基础类:去噪、超分、增强
去噪是去掉照片里的颗粒感,超分是提升分辨率,增强是综合优化色彩和对比度。去噪(Denoising)是AI修图使用频率最高的功能之一。手机在暗光下拍照ISO飙到3200以上,照片会有密密麻麻的彩色颗粒,这就是噪点。传统去噪本质是模糊处理,噪点没了细节也没了。AI去噪则用卷积神经网络学习过数百万张高清和低清图像对,能区分噪点和真实细节,只去除噪点而保留纹理。我拿一张ISO 12800的夜景照片测试,AI去噪后面部毛孔依然清晰,传统去噪则糊成一片。超分(Super Resolution)指把低分辨率图片放大到高分辨率。比如把720p的老照片放大到4K,AI会通过扩散模型逐像素重建缺失的高频信息。目前主流超分模型包括ESRGAN和Real-ESRGAN,后者对人脸的还原效果更好。根据Papers With Code排行榜,Real-ESRGAN在人脸超分任务上的NIQE分数达到了3.79,是目前开源模型中的最好成绩之一。增强(Enhancement)是个大筐,包含了自动白平衡、自动曝光、自动对比度等综合优化,一键让照片变通透。
进阶类:语义分割、实例分割、深度估计
语义分割是把照片中的不同物体按类别分开,实例分割更进一步区分同类中的不同个体,深度估计是推测照片的三维空间信息。语义分割(Semantic Segmentation)让AI能理解照片内容。比如一张街拍照片,AI会把天空、建筑、行人、路面分别标记为不同的语义区域。这个技术是AI修图中背景替换和局部调色的基础——AI知道哪里是天空所以能单独调整天空的颜色而不影响建筑。实例分割(Instance Segmentation)更精细,不仅区分"人"和"车",还能区分"第一个人""第二个人"。你去掉照片中某个特定路人就靠这个技术。深度估计(Depth Estimation)是AI修图中容易被忽略但非常重要的能力。AI通过单张照片推测每个像素距离镜头的远近,生成深度图。有了深度图,AI可以把背景虚化做得比手机自带的假虚化自然得多,因为它是基于真实空间关系来模拟景深而不是简单画个模糊圈。FlowPix的人像模式就内置了深度估计模型,虚化过渡从近到远是渐进的,不会出现边缘切割感。如果想了解更多,AI细化修图有更深的技术拆解。
模型类:GAN、扩散模型、Transformer
GAN通过生成器和判别器对抗训练来生成图像,扩散模型通过逐步去噪来生成,Transformer擅长全局上下文理解。GAN(生成对抗网络)是AI修图早期的主力军,由一个生成器和一个判别器组成。生成器负责造图,判别器负责挑刺,两者对抗训练最终让生成器能输出以假乱真的图像。StyleGAN系列在人脸生成和编辑上表现惊艳,但GAN有个致命弱点——训练不稳定容易模式坍塌。扩散模型(Diffusion Model)是近年来的新王者。它的原理很有意思:先把一张照片逐步加噪直到变成纯噪声,再训练AI学会从噪声逐步恢复成清晰图像。修图时输入的是一张有缺陷的照片,扩散模型在去噪过程中顺便把缺陷也修复了。Stable Diffusion和DALL-E都是基于扩散模型。Transformer最初用于自然语言处理,现在也被用到图像修图中。它的优势是能理解图像中远距离的上下文关系,比如修复一张被遮挡的人脸时,Transformer可以参考未被遮挡的对称部位来推理补全。说实话这个方向还在快速发展,每个季度都有新模型横空出世。《IEEE Transactions on Image Processing》2025年的综述指出,扩散模型在图像修复任务上的FID分数比GAN平均低了18%,意味着生成质量显著提升。
评估类:PSNR、SSIM、FID、LPIPS
PSNR和SSIM是传统图像质量指标,FID和LPIPS是更适合AI修图评估的感知质量指标。PSNR(峰值信噪比)是最古老的图像质量指标,计算修复图和原图像素级的差异,单位是dB。PSNR超过30dB就算不错了。但这个指标有个大问题:它只看像素差异不看视觉感受。一张稍微模糊但PSNR很高的图,人眼看起来可能不如一张细节丰富但PSNR略低的图。SSIM(结构相似性)改进了这一点,除了亮度对比度还考虑了结构信息的保留程度,比PSNR更贴近人眼感受。FID(Fréchet Inception Distance)是目前AI修图领域最主流的评估指标,它用预训练的Inception网络提取图像特征,然后比较修复图和真实图特征分布的距离。FID越低越好,10以下算优秀。LPIPS(Learned Perceptual Image Patch Similarity)是目前最贴近人类主观感受的指标,它也使用深度学习特征,但更关注感知层面的差异而非统计分布。我个人在对比不同修图工具时,会用LPIPS作为主要参考,因为它的打分跟我肉眼看到的体验最一致。如果想看具体数字,最新AI修图工具的横向评测里有一些实测数据可以参考。
常见问题
AI修图术语里哪些是必须搞懂的?
至少搞懂去噪、超分、语义分割、扩散模型这四个核心概念,足够理解90%的AI修图产品功能和评测文章了。
为什么不同工具对同一个术语的定义不一样?
部分厂商喜欢把已有的技术概念重新包装成营销术语,比如把"局部亮度调整"叫"AI光影重塑",核心还是语义分割加自适应曝光。
学这些术语对实际修图有帮助吗?
有。理解了术语背后的原理,你在调参数时就知道每个滑块在做什么,而不是盲目拉来拉去碰运气。
觉得有用的话分享给朋友吧。