找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4679

积分

0

好友

647

主题
发表于 2 小时前 | 查看: 2| 回复: 0

Edit-Banana,把不可编辑的图片变成可编辑的了。

我本来以为 AI 时代了,随便找个 OCR + 画图插件,修改图片问题就能解决了。
结果现实是OCR,文字能识别,框架、箭头、层级全没了,只剩一堆 txt。
各种「图片转 PPT」,给你一张塞进 PPT 里的大图,还是不能改,只是换了个壳。
部分商业工具,效果还行,但要么贵,要么限次数。

Edit-Banana 在干一件更「抽象」的事

上传图片或 PDF --> 输出可编辑 DrawIO(XML)或 PPTX --> 每一个框、箭头、文字都是独立元素,能拖、能改、能换模板。

它的核心,你以为是「识别文字」,其实是 高保真地还原整张图的结构意图

SAM3 分割图元

自研微调的 SAM 3 把整张图切成一个个「形状块」,矩形、箭头、图标、背景框……
这一步决定了,后面能不能做到一块一块地选、单独改。

多模态大模型多轮扫描

用 Qwen-VL / GPT-4V 这类 VLM,反复「看图」
这俩框之间是不是有逻辑关系?
哪个是标题,哪个是注释?
这箭头到底指向谁?
本质是在推断图背后的逻辑,而不是只看像素

高质量 OCR + 公式 LaTeX

Azure Document Intelligence 负责框出文本区域。
再把高分辨率裁剪图送进 Mistral Vision / 其他 LLM 做识别与纠错。
碰到公式,走 LaTeX 输出。
所以很多技术图里的下标、分式,不会被糊成一坨鬼画符。

合并生成 DrawIO / PPTX

SAM3 给空间布局,OCR 给文字,VLM 给关系,最后合成 XML / PPTX
布局、颜色、层级基本 1:1 还原;
箭头虚线、粗细、填充色尽量贴原图;
导入 DrawIO/PPT 后,就是一套完全可编辑的图。  

一句话来总结
它不是「图转文字」,是「图转工程文件」。

技术细节背后

图像分割,把像素切成「对象」

没有 SAM3,那张图永远只是像素糊。
有了分割,矩形就是矩形,箭头就是箭头,而不是「若干行像素」。

多模态理解,把对象变成「语义关系」

谁指向谁、哪个是标题、哪个是注脚,这些都是「作者的意图」。
Edit-Banana 用 VLM 多轮扫描,就是在反推作者当时脑子里的结构。

工程化导出,把语义变成「可操作文件」

最后生成的 XML / PPTX,不只是「给人看」,而是给工具继续加工的
这一步让它不只是个 demo,而是真正能进生产流。

你会发现,它干的事,完全反着传统 Adobe 那一套。

想先玩玩

直接上网页 demo,https://editbanana.anxin6.cn
图片 / PDF 扔进去就能拿结果,而且线上版本比 GitHub 代码更新快。

想本地折腾

Python 3.10+,React 前端 + FastAPI 后端;
需要下 SAM3 权重,配好 config.yaml 和 Azure OCR 环境变量;
有 CUDA GPU 更舒服,不然你会怀疑人生。

小提醒一句
GitHub 仓库当前确实落后线上服务,很多新特性会先上网页,所以想爽用就别死抠本地版本号。

项目地址:https://github.com/BIT-DataLab/Edit-Banana

对于经常需要处理技术文档、重构老旧架构图的开发者来说,Edit-Banana 提供了一种高效“复活”图片内容的方法,将视觉信息真正转化为可迭代、可维护的数字资产。想了解更多类似的工具与开发者实践,欢迎来 云栈社区 交流探讨。




上一篇:华为2025年财报发布:营收8809亿稳健增长,智能车业务增72%
下一篇:威纶通触摸屏间接窗口与直接窗口功能详解:配置步骤与案例对比
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-1 06:59 , Processed in 0.659607 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表