
2025年11月23日,网络安全研究员Bob Diachenko与nexos.ai团队发现了一个未加密且未受保护的MongoDB数据库实例。该数据库容量高达16TB,其中包含了约43亿条专业档案记录,其性质类似于领英(LinkedIn)上的公开数据。这一严重的安全漏洞可能导致大规模、由人工智能驱动的精准社会工程攻击。该漏洞在发现两天后被修复,但无法确认在此之前有哪些人员访问过这些敏感数据。
根据Cybernews团队的分析,该数据库包含9个独立的数据集,每个数据集的名称基本反映了其内容类型与数据规模:
- intent – 2,054,410,607条文档(604.76 GB)
- profiles – 1,135,462,992条文档(5.85 TB)
- unique_profiles – 732,412,172条文档(5.63 TB)
- people – 169,061,357条文档(3.95 TB)
- sitemap – 163,765,524条文档(20.22 GB)
- companies – 17,302,088条文档(72.9 GB)
- company_sitemap – 17,301,617条文档(3.76 GB)
- address_cache – 8,126,667条文档(26.78 GB)
- intent_archive – 2,073,723条文档(620 MB)

近20亿条个人隐私数据遭泄露
至少有三个数据集(profiles、unique_profiles和people)暴露了近20亿条独特的个人身份信息(PII)。这些信息极为详细,包括姓名、电子邮箱地址、电话号码、领英个人资料链接、当前职位、雇主公司、过往工作经历、教育背景、所在地、个人技能、语言能力以及其他社交网络账号等。
仅 unique_profiles 一个数据集就包含了超过7.32亿条附带个人头像URL的记录。而 people 数据集中的数据还包含了与Apollo.io(一个销售情报平台)生态系统关联的用户画像指标及Apollo ID。目前没有迹象表明Apollo.io自身遭受了入侵。
研究人员确认,虽然特定数据集内的所有记录都是唯一的,但不同数据集之间可能存在大量重复数据。不同数据集承载了不同类型的信息,共同构成了一幅幅完整的个人数字画像。
数据来源与潜在风险
难以确定这些领英风格数据的精确生成时间。部分记录的时间戳显示它们是在2025年被收集或更新的,但也有大量数据可能源于多年前,其中或许包含了威胁行为者在2021年宣称的大规模领英数据泄露事件中的信息。
截至目前,该泄露数据库的实际所有者尚未得到官方确认。研究人员发现了一些线索,指向一家潜在的客户开发或销售情报公司。其网站路径(如“/people”和“/company”)与泄露数据集中的sitemap记录相匹配。该公司在其网站上声称可以访问超过7亿专业人士的数据,这与泄露的unique_profiles数据集数量高度吻合。此外,在收到漏洞通知的次日,该数据库便被下线。
然而,研究人员并未做出明确归因,并指出该公司本身也可能是大规模数据爬取行为的受害者。
大规模结构化数据的攻击价值
此类海量、高度结构化的数据对网络安全构成了极其严重的威胁。它们可以被用于支撑高度定向的攻击,例如鱼叉式网络钓鱼、CEO欺诈(商务邮件诈骗)、企业侦察以及大规模AI驱动的社会工程攻击。
凭借数十亿条记录,攻击者能够自动化地实施个性化诈骗,极大地缩短攻击准备周期,并重点针对包括《财富》500强企业员工在内的高价值目标。
大语言模型(LLM) 技术能够基于这些详细的用户画像,自动生成极具迷惑性的个性化欺诈信息。攻击者只需投入少量额外精力,就能向数百万潜在受害者发送定制化的恶意邮件。整个攻击行动的“成本”极低,可能只需成功攻陷一个高价值目标即可获得丰厚回报。
研究人员进一步解释道,此类大型数据集是恶意行为者的主要目标。他们可以利用其他数据泄露事件中的信息对这些数据集进行“画像增强”,从而构建一个可搜索的、包含密码、设备标识符、更多社交媒体链接等敏感信息的个人数据仓库。经过增强的数据集将极大地简化社会工程攻击和凭证填充攻击的实施流程,对个人和企业安全构成长期、持续的威胁。
|