找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

325

积分

0

好友

45

主题
发表于 4 小时前 | 查看: 2| 回复: 0

你是否曾担心重要的网页内容有天会消失?尝试过浏览器收藏夹和在线服务,但始终存在网页失效或服务关停的风险。ArchiveBox 这个开源项目提供了一个理想的解决方案:在自己的服务器上建立一个私人的互联网档案馆,将网页永久保存为 HTML、PDF、截图等多种格式。

ArchiveBox简介

ArchiveBox是什么?

ArchiveBox 是一个开源的自托管网页归档工具。它能将你关心的网页完整保存下来,支持从浏览器书签、RSS订阅、Pocket等多种来源导入URL,并自动调用 Chrome、wget、yt-dlp 等工具抓取内容,最终保存为标准化的 HTML、PDF、PNG、视频等格式,确保未来几十年依然可以正常查看。

开源成就

  • Star数:已在 GitHub 上收获 25.8K Star。
  • 贡献者:拥有 126 位开发者的积极贡献。
  • 主开发语言:基于 PythonDjango 框架开发。

核心功能

  • 多格式保存:每个网页会自动保存成多种格式,包括原始HTML+CSS+JS、单文件HTML、PNG截图、PDF、WARC归档、文章纯文本等。其中,截图与可搜索文本并存的功能尤为实用。
  • 丰富的导入源:支持从 Chrome/Firefox 书签、浏览器历史记录、Pocket/Pinboard、RSS订阅、YouTube播放列表导入。浏览器扩展可以随时将当前页面加入归档队列。
  • 智能内容提取:不仅能保存网页,还能提取YouTube视频(下载为MP4)、识别Git仓库并自动克隆代码、提取文章正文、下载社交媒体内容。用它来备份GitHub项目非常方便。
  • 完全自主可控:所有数据存储在本地文件夹中,使用 SQLite 数据库管理索引,不依赖任何第三方服务,离线状态下也能查看归档内容。
  • 定时自动归档:可设置定期从RSS、书签等来源自动抓取新内容,实现持续的自动化归档。
  • 友好的Web界面:除了命令行,还提供了功能完善的Web管理界面,支持搜索、标签分类、查看日志,移动端浏览器也能顺畅访问。

安装指南

  • Docker部署(推荐):使用 docker-compose 可以最快速地启动服务,非常适合在 Docker 环境中部署。
    # 克隆配置文件
    git clone https://github.com/ArchiveBox/ArchiveBox
    cd ArchiveBox
    # 启动服务
    docker-compose up
  • pip安装:在 Linux 和 macOS 系统上,通过 pip 安装也很便捷。
    pip install archivebox
    archivebox init
    archivebox server
  • 首次运行时需要创建管理员账号,之后即可通过 Web 界面添加URL。
  • 浏览器扩展非常实用,安装后点击图标即可将当前页面加入归档队列,省去了手动复制URL的步骤。

项目预览

ArchiveBox Web界面 添加URL 归档详情 文件列表 快照预览 归档管理 浏览器扩展 核心架构

开源地址:https://github.com/ArchiveBox/ArchiveBox




上一篇:Vite8 Beta版解析:基于Rolldown重构,iVue组件库启动1.x版本研发
下一篇:Linux Ext2文件系统底层原理深度剖析:从Inode到数据块
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区(YunPan.Plus) ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-6 22:47 , Processed in 0.069572 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 CloudStack.

快速回复 返回顶部 返回列表