同事发来一个链接,里面是4张试卷截图,问能不能把这些图片转成可编辑的Word文档。这个需求很常见,解决方法也直接:先把图片下载下来合并成一个PDF文件,然后交给 MinerU 去处理识别。当然,如果你更想“偷懒”,图转PDF这一步也可以直接交给 Trae 去完成,不过就4张图,手动合并一下可能更快。

MinerU 作为一款专业的PDF阅读和解析工具,它的优势不仅仅在于精准的文本识别。它还能智能地裁剪和保留图片,这对于包含大量几何图形、函数图像的数学试卷来说至关重要,确保题目中的示意图不会丢失。虽然 MinerU 本身支持将解析结果直接导出为 .docx 格式,但我后续尝试用 Trae 重新导出了一次。对比发现,Trae 导出的文档在排版美观度上更胜一筹,但对于一些特殊数学符号的还原,则不如 MinerU 完美。两者算是各有千秋。


文档处理完后,我有了个新想法:能不能利用 Trae 为这套识别出来的试卷,自动生成一套可视化的交互界面?我的设想是按题目逐道呈现,最后再生成一个总览导航页面。于是,我直接把整理好的试卷文本和这个想法作为提示词喂给了 Trae。
  
在让 Trae 自行优化了一下提示词后,生成过程就开始了。整个过程大约持续了20分钟,24道题目(含选择、填空、解答)的交互页面就全部自动生成了。虽然最终的界面风格带着明显的“AI设计”痕迹,但功能完备,完全能用。

大家可以看看生成的效果。最终产出的交互式系统与我最开始的设想虽然存在一些差异,但核心功能——题目分页展示、答案输入与校验、解析查看——都完整实现了。这证明“从非结构化的试卷截图,到结构化的可交互应用”这个技术路径是完全可行的。后续如果想要界面更精美、逻辑更贴合预期,只需要对提示词进行更精细的调整和迭代即可。
下面是一些生成页面的示例:
选择题页面示例:题目、选项、提交按钮和详细的解析步骤一应俱全。

填空题页面示例:提供了输入框,并在提交后展示完整的计算过程。

解答题页面示例:对于复杂的几何证明题,能够分步展开详细的推导和计算过程。


这个实战案例展示了如何将 MinerU 的精准内容识别能力与 Trae 的自动化前端生成能力相结合,快速构建出一个可用的轻量级交互应用。对于教育、培训或内容数字化场景,这套组合拳提供了一个高效的新思路。如果你对这类技术实践感兴趣,欢迎在云栈社区交流讨论,共同探索更多可能性。
|