Google Gemini修图能力评测:多模态AI的修图实力
简单说:Gemini能看图、能理解、能按文字指令改图。去背景、换风格、局部编辑都行,但精细度不如专业修图软件。适合快速出图,不适合商业精修。
Google的Gemini能修图?能。
多模态嘛,看图说话、按指令改图都是基本功。FlowPix编辑部把Gemini 2.0和Gemini Pro都试了一遍,直接说结论:理解力强,执行力中等。今天把实测体验写清楚。
能做什么
Gemini修图核心就三件事——理解图片内容、按文字指令修改、生成新图。去背景、换风格、加元素都能干。
上传一张照片,打字说"把背景换成海滩"或"把这个人变成卡通风格",Gemini会理解并输出修改后的图。不用点选区、不用调参数,纯对话式操作。Gemini在Google AI Studio和Android App里都能用。
理解力确实好。你说"把左边那朵花去掉",它一般能认出来。比很多只会全局处理的工具强。
效果怎么样
去背景、换风格效果中上。局部精细编辑会有点糊,边缘偶尔不自然。发朋友圈够用,做产品图差点意思。
我们试了人像去背景,抠得还算干净,头发丝会有点锯齿。换背景的话,光影融合有时候不自然,仔细看能看出拼接感。
风格转换不错。转油画、转素描、转动漫,效果都在线。跟专门做风格转换的App比,不输。
和GPT-4o、Claude比
Gemini理解图片能力跟GPT-4o差不多,可能略强。执行编辑的话,三家各有千秋,没有明显碾压。
GPT-4o的DALL-E编辑集成在ChatGPT里,流程顺。Claude的图片编辑能力在进步,但还没完全放开。Gemini的优势是Google生态,跟Photos、Drive打通方便。
说实话,多模态修图这块大家还在卷。半年后再比可能又不一样。
| 能力 | Gemini | GPT-4o | Claude |
|---|---|---|---|
| 理解图片 | 强 | 强 | 中上 |
| 去背景 | 中上 | 中上 | 中等 |
| 风格转换 | 好 | 好 | 一般 |
| 局部编辑 | 中等 | 中等 | 中等 |
根据Google AI博客,Gemini 2.0在2025年支持了更细粒度的图像编辑,多模态理解准确率提升明显。FlowPix编辑部建议:日常快速修图用Gemini挺方便,专业需求还是上DALL-E或Photoshop。更多AI修图工具看AI修图神器盘点。