找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3375

积分

0

好友

437

主题
发表于 15 小时前 | 查看: 1| 回复: 0

一个戴着紫色帽子与眼镜的AI卡通形象,背景有重复的“AI”字样

你是否也遇到过这样的困扰?用AI总结日报时,总觉得信息重复率太高,抓不到真正的重点。这个问题困扰了我很久,仔细分析后发现,根源在于:AI抓取的信息源与平台推荐给我的内容高度重合。作为对AI感兴趣的人,平台信息流和AI能搜到的“优质”内容,往往就是那前10%,大量有价值的信息差被埋没在剩下的90%里。

因此,在春节的七天时间里,我彻底重构了自己的信息获取工作流。目标是跳出那重复的10%,精准筛选出被AI“漏掉”的90%中,最有信息价值的前5%。最终,我将整个方案做成了一个无需API、自带双语翻译和信心去重的开源工具。

项目已开源在 GitHub:
🔗 github.com/LearnPrompt/ai-news-radar

原有的信息流,比如用Grok抓实时动态、用定时任务监控大佬的热门帖子、用Gemini总结邮件,存在一个“老毛病”:AI总结的内容相似度太高,无法提炼出真正的核心。这次重构,我改变了思路,将信息源分层聚合。

三层信息聚合策略

我将信息来源分为三个层级进行聚合:

  1. 第一层:AI圈动态。 聚焦于自媒体的更新和产品新闻,确保紧跟行业脉搏。
  2. 第二层:全网趋势。 抓取各类平台的热榜和趋势话题,把握泛科技领域的风向。
  3. 第三层:智能聚合器。 这一层负责核心的数据处理,提供内容去重和英文标题的自动翻译,合并并清洗前两层的数据。

核心:11个精选信息源

这次更新集成了11个我过去四五年里收集和筛选出的高质量信息聚合网站。例如,“WaytoAGI”提供了近7天的更新日志,并可以按钮切换查看“当日”或“7天”内容。其他大部分源都支持中英文双语标题展示和重复内容过滤开关。Reddit、Hacker News、V2EX等经典社区都已包含在内。

  • bestblogs.dev
  • aibase.com
  • techurls.com
  • iris.findtruman.io/web/info_flow
  • tophub.today
  • aihot.today
  • zeli.app
  • newsnow.busiyi.world
  • buzzing.cc
  • ai.hubtoday.app

RSS与视频内容的处理

对于RSS订阅,我保留了“Folo”和“语鲸”两个工具。“语鲸”主要用来追踪公众号更新,它有一个很棒的功能:会把当天的热门话题打包成合集。其他常规的RSS源,我使用由RssHub团队开发的“Folo”,它的兼容性非常出色。

视频内容需要单独处理。YouTube的AI摘要已经很成熟,难点在于小红书、B站、抖音这类平台。

长视频用大模型从头到尾总结非常消耗Token。对于纯口播类视频,市面上有很多小程序可以提取字幕,完全够用,不必自己开发。

我还摸索出一个新方法:利用飞书的“AI录音豆”功能。播放长视频时同步录音,当视频中出现我想记录的灵感点时,直接暂停视频并口述记录。因为录音豆本身就能区分说话人,所以后续整理笔记非常方便,需要回顾时再根据笔记的时间轴定位到原视频片段即可。

最后的思考

经过这次重构,我最大的感触是:真正优质的内容,其实一眼就能辨识出来。它不需要分享给别人去二次确认其价值,从你创作或发现它的那一刻起,心里就已经有了答案。

我们构建工具和流程的目标,是力争从海量信息中多获取那有价值的5%,同时果断过滤掉无意义的80%。不要因为偶尔漏掉一两条信息就全盘否定自己设计的系统,相信自己的信息审美和判断力。如果你也在探索如何更高效地利用人工智能管理信息,不妨试试这个开源方案,或者在云栈社区分享你的心得。




上一篇:基于 Rust + Iroh QUIC 构建开源文件直传工具 AltSendme,支持点对点加密与大文件断点续传
下一篇:Whisper模型怎么用?Python实战详解OpenAI开源语音识别,支持翻译与字幕生成
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-25 20:25 , Processed in 0.354735 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表