Google Gemini修图能力评测:多模态AI的修图实力

Google Gemini修图能力评测:多模态AI的修图实力
 Google Gemini修图能力评测多模态AI

简单说:Gemini能看图、能理解、能按文字指令改图。去背景、换风格、局部编辑都行,但精细度不如专业修图软件。适合快速出图,不适合商业精修。

Google的Gemini能修图?能。

多模态嘛,看图说话、按指令改图都是基本功。FlowPix编辑部把Gemini 2.0和Gemini Pro都试了一遍,直接说结论:理解力强,执行力中等。今天把实测体验写清楚。

能做什么

Gemini修图核心就三件事——理解图片内容、按文字指令修改、生成新图。去背景、换风格、加元素都能干。

上传一张照片,打字说"把背景换成海滩"或"把这个人变成卡通风格",Gemini会理解并输出修改后的图。不用点选区、不用调参数,纯对话式操作。Gemini在Google AI Studio和Android App里都能用。

理解力确实好。你说"把左边那朵花去掉",它一般能认出来。比很多只会全局处理的工具强。

效果怎么样

去背景、换风格效果中上。局部精细编辑会有点糊,边缘偶尔不自然。发朋友圈够用,做产品图差点意思。

我们试了人像去背景,抠得还算干净,头发丝会有点锯齿。换背景的话,光影融合有时候不自然,仔细看能看出拼接感。

风格转换不错。转油画、转素描、转动漫,效果都在线。跟专门做风格转换的App比,不输。

和GPT-4o、Claude比

Gemini理解图片能力跟GPT-4o差不多,可能略强。执行编辑的话,三家各有千秋,没有明显碾压。

GPT-4o的DALL-E编辑集成在ChatGPT里,流程顺。Claude的图片编辑能力在进步,但还没完全放开。Gemini的优势是Google生态,跟Photos、Drive打通方便。

说实话,多模态修图这块大家还在卷。半年后再比可能又不一样。

能力GeminiGPT-4oClaude
理解图片中上
去背景中上中上中等
风格转换一般
局部编辑中等中等中等

根据Google AI博客,Gemini 2.0在2025年支持了更细粒度的图像编辑,多模态理解准确率提升明显。FlowPix编辑部建议:日常快速修图用Gemini挺方便,专业需求还是上DALL-E或Photoshop。更多AI修图工具看AI修图神器盘点