Koharu 是一款基于 Rust 语言开发的漫画翻译工具,它通过整合多种人工智能(AI)技术,实现了高度自动化的漫画本地化流程。
该项目革新了传统漫画翻译流程,将目标检测、光学字符识别(OCR)、图像修复(Inpainting)以及大语言模型(LLM)等能力融为一体,旨在提供无缝的翻译体验。


核心功能
- 自动气泡检测与分割:精准识别并分割漫画画格中的对话气泡。
- 漫画专用OCR:针对漫画字体和排版优化过的文本识别功能。
- 智能背景修复:自动擦除原图中的文字,并利用图像修复技术填充背景。
- LLM驱动翻译:调用大语言模型进行上下文感知的优质翻译。
- 垂直文本排版:完美支持中日韩(CJK)语言的竖排文字,还原原版漫画的阅读感。
硬件加速支持
为提升AI模型推理效率,Koharu 针对不同硬件平台进行了优化:
- NVIDIA GPU (CUDA)
- 内置 CUDA toolkit 12.x 及 cuDNN 9.x 支持。
- 要求显卡计算能力(Compute Capability)在 7.5 及以上。
- 首次运行时自动提取所需动态链接库。
- macOS (Metal)
- 支持 Apple Silicon(M1, M2, M3 等)芯片,利用 Metal 框架进行GPU加速。
集成的AI模型
Koharu 协同使用了计算机视觉(CV)与自然语言处理(NLP)两类模型。
计算机视觉模型(运行自动下载)
- 文字检测:
comic-text-detector
- 文字识别(OCR):
manga-ocr
- 图像修复:
AnimeMangaInpainting
注:为提升性能与兼容性,官方已将上述模型转换为 safetensors 格式并托管于 Hugging Face,程序首次执行时会自动下载。
大语言模型(LLMs)
- 支持 GGUF 格式的量化模型。
- 当前已验证可用的模型示例:
vntl-llama3-8b-v2, sakura-galtransl-7b-v3.7。
- 用户于设置中选择模型后,将按需自动下载。
安装与从源码构建
- 直接安装
- 官方 Release 页面提供了 Windows 和 macOS 的预编译二进制文件,开箱即用。
- Linux 或其他平台用户可能需要从源码编译。
- 开发/源码编译
- 环境要求:需要安装 Rust (1.85+) 和 Bun (1.0+)。
- 构建步骤:
bun install # 安装前端依赖
bun run build # 构建项目
- 构建完成后,可执行文件位于
target/release 目录下。
项目信息
- 项目地址:github.com/mayocream/koharu
- 开发者:mayocream
- 项目数据:353 ⭐ / 16 Forks (统计时间仅供参考)
- 开源协议:GPL-3.0 (主程序) / Apache-2.0 (子库)
|