找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

225

积分

0

好友

16

主题
发表于 7 天前 | 查看: 61| 回复: 0
本帖最后由 云栈开源日记 于 2025-10-29 23:21 编辑

socialanalyzerlogo_.png

一个真实案例

2021年,美国FBI利用OSINT工具,在72小时内通过社交媒体线索锁定了国会山骚乱事件中的127名嫌疑人。这类工具的核心能力,就是跨平台的用户画像追踪。

今天介绍的 Social Analyzer,就是这样一款开源情报工具。


Social Analyzer 是什么

输入一个用户名,自动在 1000+ 社交网站 上查找该用户的账号,并生成可视化报告。这个项目在 GitHub 上已经获得 15.5k Star,被多国执法机构用于网络犯罪调查。

实际应用场景

  • 企业背调:验证求职者提供的社交账号真实性
  • 安全调查:追踪网络欺凌、钓鱼攻击源头
  • 品牌监控:发现冒用企业名义的假冒账号
  • 数字遗产:帮助家属找回逝者的网络账户

核心功能

三种使用方式

intro_fast.gif

Web界面:浏览器打开即用,适合非技术人员  

cli.gif

命令行工具nodejs app.js --username "目标用户名"  

API接口:可以集成到现有系统中

智能检测算法

传统工具只检查URL是否存在,误报率高达60%。Social Analyzer 采用四层检测机制:

  • 第一层:HTTP状态码检测(30分)
  • 第二层:页面内容特征匹配(40分)
  • 第三层:OCR图像识别(20分)
  • 第四层:元数据验证(10分)

最终给出 0-100 分的可信度评分,大幅降低误报率。

技术实现

structure.png

后端架构:Node.js + Python 双引擎
爬虫技术:Selenium + Tesseract OCR
数据可视化:力导向图展示账号关联关系
容器化部署:Docker 支持分布式并行检测

NodeJS教程https://yunpan.plus/t/71-1-1


快速上手教程

Docker 部署(推荐)

git clone https://github.com/qeeqbox/social-analyzer.git
cd social-analyzer
npm install && npm start
# 访问 http://localhost:9005/app.html

命令行使用

# 基础检测
nodejs app.js --username "johndoe"

# 批量检测+元数据分析
nodejs app.js --username "user1,user2" --metadata

# 只检测主流平台(Alexa排名前100)
nodejs app.js --username "johndoe" --top 100

检测结果示例

{
  "Twitter": {"rate": 95, "status": "good"},
  "GitHub": {"rate": 88, "status": "good"},
  "Instagram": {"rate": 45, "status": "maybe"}
}

评分 80 分以上表示账号存在可能性很高,45 分左右需要人工进一步确认。


技术架构分析

项目采用分层架构设计:

表现层(Web/CLI/API)
    ↓
业务逻辑层(字符串分析+检测模块)
    ↓
数据访问层(HTTPS/Selenium/OCR)
    ↓
数据层(1000+网站规则库)

核心模块包括:

  • finder.js:用户名查找引擎
  • detector.js:评分检测器
  • extractor.js:元数据提取器

所有网站的检测规则存储在 data/ 目录的 JSON 文件中,可以自行扩展添加新网站。


适合什么人学习

这个项目特别适合作为求职作品集:

✅ 全栈技能:涵盖前后端、爬虫、数据分析
✅ 安全领域:OSINT 工具开发经验
✅ 架构能力:支持 1000+ 数据源的分布式系统
✅ 实战场景:可应用于反欺诈、风控等商业领域

面试时可以这样介绍:

"我研究过一个 15.5k Star 的 OSINT 项目,它实现了基于多层检测的智能评分算法,通过 OCR + WebDriver 解决了动态内容抓取难题,并用 Docker 实现了并行化优化。"


使用注意事项

⚠️ 合规使用:仅用于合法调查,遵守各国隐私法规
⚠️ 性能调优:默认 15 个 Worker,可通过 --workers 参数调整
⚠️ 依赖环境:需要安装 Firefox ESR 和 Tesseract OCR


学习路径建议

第1周:运行 CLI 模式,理解检测流程
第2周:阅读核心模块源码,学习爬虫策略
第3周:修改配置文件,添加自定义网站
第4周:部署 Docker 版本,优化并行性能


总结

Social Analyzer 的价值不仅在于功能本身,更在于它展示了如何系统化解决复杂问题:从数据采集、智能分析到可视化呈现,形成完整的技术闭环。

对于想进入安全、数据分析或全栈开发领域的开发者来说,这是一个值得深入研究的优质项目。


关注《云栈开源日记》,每天 3 分钟,带你盘点 GitHub 优质开源项目!


📦 项目地址
https://github.com/qeeqbox/social-analyzer

📚 官方文档
https://github.com/qeeqbox/social-analyzer/wiki

🐍 PyPI 包
https://pypi.org/project/social-analyzer/

🎬 Python爬虫与JS逆向
https://yunpan.plus/t/46-1-1


SocialAnalyzer #GitHub #开源工具 #OSINT #网络安全 #Python #Nodejs #数据分析

来自圈子: 云栈开源日记
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|云栈社区(YunPan.Plus) ( 苏ICP备2022046150号-2 )

GMT+8, 2025-11-5 20:41 , Processed in 0.263705 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 CloudStack.

快速回复 返回顶部 返回列表