自2023年起,文生图(Text-to-Image, T2I)模型在创意生成领域竞争日趋激烈。商业产品Nano Banana Pro(基于Gemini 3 Pro构建)以“世界知识整合与高精度生成”闻名,但其在不进行微调或训练、仅依赖提示词的情况下,处理传统低层次视觉任务(如图像去雾、超分辨率、去雨、去阴影等)的能力尚不明确。

为此,研究团队设计了一项全面的“零样本铁人三项”测试,一次性使用14个任务类别下的40个数据集对Nano Banana Pro进行评估。核心实验思路是:仅通过自然语言提示(prompt)驱动,不依赖任何梯度更新。核心目的是回答一个问题:它是否能被视为一个“低层次视觉全能模型”?
实验设计:单一提示词应对多任务
实验涵盖了图像复原、图像增强和图像融合三大类,共计14个具体任务。以下是任务概览与固定提示词示例:

| 任务类别 |
代表任务 |
数据集数量 |
固定 Prompt 示例 |
| 图像复原 |
去雾、去雨、去阴影、运动/散焦去模糊、去噪 |
24 |
“Remove the haze/rain/shadow/blur/noise while keeping other elements unchanged.” |
| 图像增强 |
超分、低光照增强、水下增强、HDR |
10 |
“Upscale/low-light enhance/underwater enhance/HDR this image.” |
| 图像融合 |
多焦点融合、红外-可见光融合 |
6 |
“Fuse the multi-focus/IR-visible images.” |
结果速览:主观视觉优异与客观指标脱节
评估发现,Nano Banana Pro在零样本低层次视觉任务中展现出独特的潜力,尤其是在生成图像的视觉感知质量上表现突出。然而,其在传统全参考量化指标(如PSNR、SSIM)上表现普遍不佳,这主要源于其生成式模型的本质——难以保证像素级的精确一致。
下表概括了其在各任务上的核心表现矛盾:
| 任务 |
视觉主观评价 |
传统指标 (PSNR/SSIM) |
无参考指标 (NIQE/NIMA) |
| 去雾 |
画面通透,甚至“强行”添加蓝天 |
色彩漂移严重,FADE指标上升 |
NIMA得分5.44,为测试中最高 |
| 超分 |
纹理“幻觉”(Hallucination)现象显著 |
PSNR比专业方法低4dB以上 |
NIQE得分3.52,表现最佳 |
| 去雨 |
桥梁缆索等结构恢复完整 |
Rain200H数据集PSNR仅21dB |
视觉效果更为干净 |
| 阴影去除 |
成功移除硬阴影 |
PSNR 20.67 dB |
出现多余的“手部”幻觉 |
| 运动去模糊 |
低光照文字恢复清晰 |
GoPro数据集PSNR 21.41 dB |
人脸身份被替换 |
| 散焦去模糊 |
仅提升对比度 |
落后最佳方法6dB以上 |
几乎未实现去模糊 |
| 去噪 |
画面平滑干净 |
PolyU数据集PSNR仅24dB |
细节被过度平滑 |
深度案例分析:五大典型任务表现
1. 去雾:蓝天“幻觉”与色彩漂移

- 成功案例:在RTTS重度雾霾图像中,模型成功恢复了远处建筑群的细节(见上图)。
- 失败案例:在阴天场景下,模型倾向于“强制”生成蓝天白云,导致饱和度异常和色彩漂移。

表1:去雾任务量化指标对比(黑色加粗为最优值)
2. 超分辨率:视场膨胀与内容幻觉

- 优点:NIQE(无参考图像质量评价)得分最低,表明生成图像自然,并具有天然去噪效果。
- 缺点:
- 视场(FOV)膨胀:输出图像内容范围时常大于真实的高分辨率图像(Ground Truth)。
- 文字幻觉:当输入低质量文字时,模型会“脑补”出错误的笔画。

表2:超分辨率任务量化指标对比
3. 去雨:雨雾混淆的语义歧义

- 优点:能够保持场景的全局语义一致性,恢复清晰的结构(如桥缆)。
- 缺点:模型可能无法准确区分“雨线”和“雾气”,导致将雾一同去除,引起像素级偏差。

表3:去雨任务量化指标对比
4. 阴影去除:多余肢体的幻觉

- 成功案例:对于硬阴影,模型可以干净地去除并保持色调一致。
- 失败案例:在去除手部阴影时,模型可能“幻觉”出另一只不存在的手。

表4:阴影去除任务量化指标对比
5. 运动去模糊:身份信息的不可控

- 优点:在文本图像上去模糊效果显著,文字变得清晰可读。
- 缺点:处理人脸时,身份信息可能发生不可控的改变,出现“换脸”现象及颜色偏移。
表5:运动去模糊任务量化指标对比
核心结论:生成式模型的优势与局限
本次系统性评估揭示了以Nano Banana Pro为代表的大规模生成式模型在低层次视觉任务上的“双刃剑”特性:
| 评估维度 |
生成式模型优势 |
生成式模型劣势 |
| 感知质量 |
纹理真实、噪声低、无参考指标(NIQE/NIMA)高 |
像素级不一致,全参考指标(PSNR/SSIM)低 |
| 语义一致性 |
全局场景结构合理 |
局部细节(身份、文字)易产生幻觉 |
| 物理忠实度 |
无 |
色彩、尺度、光照等物理属性常被篡改 |
| 零样本通用性 |
14类任务均可通过提示词驱动 |
单项任务性能弱于专业定制模型 |
研究指出:“Nano Banana Pro并非传统意义上的图像复原模型,本质上是一个基于世界知识的图像重绘引擎。”这标志着低层次视觉研究的新挑战:如何有效调和生成模型的创造能力与物理约束的精确要求,将是该领域未来的关键方向。
论文与代码:
|