5688 积分	0 好友	754 主题

[Python] 利用Edit-Banana，将架构图、流程图图片一键转成可编辑的DrawIO与PPTX文件

发表于 2026-4-1 04:23:46 | 查看: 256| 回复: 0

Edit-Banana，把不可编辑的图片变成可编辑的了。

我本来以为 AI 时代了，随便找个 OCR + 画图插件，修改图片问题就能解决了。
结果现实是OCR，文字能识别，框架、箭头、层级全没了，只剩一堆 txt。
各种「图片转 PPT」，给你一张塞进 PPT 里的大图，还是不能改，只是换了个壳。
部分商业工具，效果还行，但要么贵，要么限次数。

上传图片或 PDF --> 输出可编辑 DrawIO（XML）或 PPTX --> 每一个框、箭头、文字都是独立元素，能拖、能改、能换模板。

它的核心，你以为是「识别文字」，其实是 高保真地还原整张图的结构意图。

SAM3 分割图元

自研微调的 SAM 3 把整张图切成一个个「形状块」，矩形、箭头、图标、背景框……
这一步决定了，后面能不能做到一块一块地选、单独改。

用 Qwen-VL / GPT-4V 这类 VLM，反复「看图」
这俩框之间是不是有逻辑关系？
哪个是标题，哪个是注释？
这箭头到底指向谁？
本质是在推断图背后的逻辑，而不是只看像素。

高质量 OCR + 公式 LaTeX

Azure Document Intelligence 负责框出文本区域。
再把高分辨率裁剪图送进 Mistral Vision / 其他 LLM 做识别与纠错。
碰到公式，走 LaTeX 输出。
所以很多技术图里的下标、分式，不会被糊成一坨鬼画符。

合并生成 DrawIO / PPTX

SAM3 给空间布局，OCR 给文字，VLM 给关系，最后合成 XML / PPTX
布局、颜色、层级基本 1：1 还原；
箭头虚线、粗细、填充色尽量贴原图；
导入 DrawIO/PPT 后，就是一套完全可编辑的图。

一句话来总结
它不是「图转文字」，是「图转工程文件」。

图像分割，把像素切成「对象」

没有 SAM3，那张图永远只是像素糊。
有了分割，矩形就是矩形，箭头就是箭头，而不是「若干行像素」。

多模态理解，把对象变成「语义关系」

谁指向谁、哪个是标题、哪个是注脚，这些都是「作者的意图」。
Edit-Banana 用 VLM 多轮扫描，就是在反推作者当时脑子里的结构。

工程化导出，把语义变成「可操作文件」

最后生成的 XML / PPTX，不只是「给人看」，而是给工具继续加工的。
这一步让它不只是个 demo，而是真正能进生产流。

你会发现，它干的事，完全反着传统 Adobe 那一套。

想先玩玩

直接上网页 demo，https://editbanana.anxin6.cn
图片 / PDF 扔进去就能拿结果，而且线上版本比 GitHub 代码更新快。

想本地折腾

Python 3.10+，React 前端 + FastAPI 后端；
需要下 SAM3 权重，配好 config.yaml 和 Azure OCR 环境变量；
有 CUDA GPU 更舒服，不然你会怀疑人生。

小提醒一句
GitHub 仓库当前确实落后线上服务，很多新特性会先上网页，所以想爽用就别死抠本地版本号。

项目地址：https://github.com/BIT-DataLab/Edit-Banana

对于经常需要处理技术文档、重构老旧架构图的开发者来说，Edit-Banana 提供了一种高效“复活”图片内容的方法，将视觉信息真正转化为可迭代、可维护的数字资产。想了解更多类似的工具与开发者实践，欢迎来云栈社区交流探讨。