2657 积分	0 好友	358 主题

发消息

零宽字符实现文档盲水印：JavaScript实战与企业内审溯源方案

发表于 2025-12-10 18:12:54 | 查看: 75| 回复: 0

在企业管理中，内部敏感信息的泄露是一个令人头疼的问题。设想一下，一份没有添加任何显式标识（如员工姓名水印）的纯文本文档截图，出现在了竞争对手的讨论群中。如何快速、隐蔽地锁定信息泄露的源头？

答案就隐藏在Unicode字符集里一些“看不见”的字符中。本文将介绍一种基于零宽字符的盲水印技术，它能在文档中植入肉眼无法察觉的追踪标识，为内部审计与信息溯源提供一种巧妙的解决方案。

什么是零宽字符？

零宽字符是Unicode字符集中一类特殊的字符。它们虽然存在，但不占用任何视觉宽度，也不显示任何像素，可以理解为是“隐形”的。

最常见的几种零宽字符包括：

\u200b (Zero Width Space)：零宽空格
\u200c (Zero Width Non-Joiner)：零宽非连字符
\u200d (Zero Width Joiner)：零宽连字符

我们可以在浏览器的开发者工具控制台中验证其特性：

console.log('A' + '\u200b' + 'B'); // 输出: "AB" (视觉上与普通"AB"无异)
console.log(('A' + '\u200b' + 'B').length); // 输出: 3 (实际长度为3)

技术原理

其核心原理是利用这些隐形字符作为载体，将特定信息（如员工工号）编码后嵌入到正常文本中。这涉及到Web开发中前端工程化对文本处理的巧妙应用。

基本流程如下：

制定编码规则：选定两个零宽字符分别代表二进制中的 0 和 1。例如：
- \u200b 代表 0
- \u200c 代表 1
- (可选) 使用 \u200d 作为信息段的分隔符。
信息编码与嵌入：
- 将标识信息（如 “User_9527”）转换为二进制字符串。
- 将二进制串中的每一位（0或1）替换为对应的零宽字符，形成一串“隐形”的序列。
- 将这串隐形序列插入到目标文档文本的特定位置（如开头、结尾或随机分散插入）。
信息提取与解码：
- 从疑似泄露的文本中，通过正则表达式提取出所有的零宽字符。
- 根据编码规则，将零宽字符序列还原为二进制字符串。
- 将二进制字符串转换回原始的文本标识，从而定位到信息源。

实战代码：实现与提取水印

以下是一个完整的JavaScript实现示例，你可以直接在浏览器控制台中运行测试。

1. 加密函数（嵌入水印）

// 零宽字符字典
const zeroWidthMap = {
  '0': '\u200b', // Zero Width Space
  '1': '\u200c', // Zero Width Non-Joiner
};

function textToBinary(text) {
  return text.split('').map(char =>
    char.charCodeAt(0).toString(2).padStart(8, '0') // 转换为8位二进制
  ).join('');
}

function encodeWatermark(text, secret) {
  const binary = textToBinary(secret);
  const hiddenStr = binary.split('').map(b => zeroWidthMap[b]).join('');
  // 将隐形字符插入文本第一个字符后（也可采用更复杂的分散插入策略以增强隐蔽性）
  return text.slice(0, 1) + hiddenStr + text.slice(1);
}

// === 测试 ===
const originalText = “公司机密文档，严禁外传！”;
const userWorkId = “User_9527”;
const watermarkText = encodeWatermark(originalText, userWorkId);
console.log(“原文:”, originalText);
console.log(“带水印文本:”, watermarkText);
console.log(“肉眼是否可辨？”, originalText === watermarkText); // 输出: false
console.log(“长度对比:”, originalText.length, watermarkText.length); // 长度不同

当这段watermarkText被复制到微信、飞书、邮件或任何支持Unicode的文本编辑器时，隐形的追踪信息会一并被带走。

2. 解密函数（提取水印）
当我们需要对泄露文本进行审计时，运行以下解码函数：

// 反向字典
const binaryMap = {
  '\u200b': '0',
  '\u200c': '1',
};

function decodeWatermark(text) {
  // 1. 提取所有零宽字符
  const hiddenChars = text.match(/[\u200b\u200c]/g);
  if (!hiddenChars) return '未发现水印';

  // 2. 将零宽字符序列转回二进制字符串
  const binaryStr = hiddenChars.map(c => binaryMap[c]).join('');

  // 3. 二进制字符串转文本
  let result = '';
  for (let i = 0; i < binaryStr.length; i += 8) {
    const byte = binaryStr.slice(i, i + 8);
    result += String.fromCharCode(parseInt(byte, 2));
  }
  return result;
}

// === 测试溯源 ===
const leakerId = decodeWatermark(watermarkText);
console.log(“提取出的标识:”, leakerId); // 输出: User_9527

（经复制粘贴后，水印信息依然存在于文本中）

技术局限性与防御思路

这种方案并非无懈可击，但它是一种成本极低、隐蔽性极高的防御措施。

能否被清除？ 可以。但前提是攻击者知晓该技术存在。对于无意识的内部人员，他们在复制粘贴时毫无察觉。技术娴熟的“内鬼”可能通过重打字或使用脚本过滤特定Unicode字符（如 text.replace(/[\u200b-\u200f]/g, '')）来清除水印。
应用价值：这项技术的核心价值在于其主动防御和事后追溯能力。它作为一种补充手段，与权限管理、行为日志审计等共同构成企业数据安全防护体系。

掌握此类技术，有助于开发者拓宽安全与渗透测试的思维边界。它不仅是一个有趣的编程挑战，更体现了在资源约束下通过技术创新解决问题的思路。当下次被问及“如何保护Web页面内容免遭未授权传播”时，这无疑是一个能展现技术深度与巧思的答案。

上一篇：FOFA信息收集实战：利用Dorking技术发现并访问关键VNC服务
下一篇：C++ d指针（Pimpl）实战评估：小项目中是否应该采用该设计模式？

零宽字符, 盲水印, JavaScript, 数据安全, 企业内审