云栈社区»论坛 › 开发者广场「Dev Plaza」 › 小红书AI算力底座实践：从混合云到自建智算中心的架构演进 ...

发回帖发新帖

3269 积分	0 好友	435 主题

发消息

小红书AI算力底座实践：从混合云到自建智算中心的架构演进

发表于 2025-12-31 03:14:37 | 查看: 84| 回复: 0

近日，小红书首座自用数据中心获得中国数据中心权威协会CDCC的2025年度十大数据优秀项目及国外数据中心媒体 w.media 的 Northeast Asia Cloud&Datacenter 年度卓悦设计&建设奖 Excellence in Data Centre Design and Build。

图：小红书团队在CDCC 2025十大数据中心优秀项目颁奖现场

图：小红书数据中心项目获得W.Media东北亚云数据中心奖项

这是国内外目前两个影响力最大的数据中心奖项，既是对小红书首次交付自用数据中心的重大肯定，也是小红书基础技术部实用第一、性价比突出、业内领先技术路线理念的体现。

图：小红书数据中心获得的奖杯

本文将梳理小红书数据中心获得两项行业奖项的实践历程，系统剖析其获得行业认可的核心设计方案与标准化运营体系。

文章整体分成六个部分：

上云到下云：算力结构变化与基础设施策略调整
选址：云上云下协同视角下的数据中心布局
服务器与网络：后发优势下的选型与架构实践
智算中心设计：集中度、预制化与风/液冷兼容
智慧运维体系：自动化分级与能效优化实践
AI绿色算力：电力、储能与算电协同探索

从上云到下云算力结构变化驱动基础设施策略调整
图：算力结构变化驱动基础设施策略调整

1. 算力架构多元化发展

小红书早期主要是社区和图文内容业务，典型的互联网工作负载，大部分算力需求可以用几个关键词概括：

CPU为主的通用计算；
大量Web/API服务；
内容生产、分发、基础推荐与搜索；
标准化数据库与缓存集群；

在这个阶段，全面依赖公有云是非常合理的选择：上线快、弹性强，可以支撑业务快速增长和频繁试错。

但是过去五年，情况开始发生了明显变化。随着生成式AI和大模型相关应用的推进，我们的算力需求出现了第二条分支方向：

智能计算（GPU）：支撑模型训练、在线推理、特征处理等AI工作负载；

智能算力的几个特征值如下：

单节点功率密度高，机柜功率密度高；
对网络带宽/延迟敏感；
训练任务持续时间长，对稳定性要求高；
成本压力巨大，对TCO敏感；

图：通算数据中心与智算数据中心特点对比

2. 自建基础设施势在必行

在算力结构变化、电力和GPU等供应链波动，以及数据合规和核心业务可控性要求逐渐提高的背景下，我们做了一个比较明确的判断：

“完全依赖公有云，不再是长期最优解”

对于核心算力，小红书做出了构建“自建基础设施 + 公有云”的混合架构的决定。
随后，小红书开始系统化推进“下云”：

自主租用IDC；
自主规划采买服务器与网络架构；
在云上云下之间构建统一的资源和调度体系；

这不是小红书在“去云”，而是从“全云化”演进到“云上 + 自建算力池”的协同形态。

选址从成本导向到云上云下协同导向
图：数据中心选址策略的转变

下云的第一步是找到一个合适数据中心站点。很多人提到数据中心选址，第一反应是土地、电价、气候、政策补贴等。这些对我们同样重要，但在做具体规划时，我们把“云上云下协同”和“业务连续性”放在更前面。

数据中心选址决策思维导图
图：数据中心选址决策的四个维度

这里可以简单拆成四个维度：

1. 云上云下协同与容灾

我们不把线下数据中心当成一个独立“孤岛”，而是从一开始就按混合架构来设计：

与主流公有云在网络时延上的可接受范围
云上云下之间的数据同步方案和带宽预算
关键业务在云/线下互为备份、快速切换的可行路径

这会反过来影响我们对机房城市/区域乃至运营商的选择。

2. 用户体验与网络拓扑

我们会结合以下信息：

用户主要分布区域
三大运营商骨干网与节点布局
各区域网络时延与跨域传输能力

目标不是单点极致，而是整体线路可接受、可运维，并能支撑未来跨地域多中心的架构演进。

3. 成本与政策的长期可信度

成本不仅是“今天的电价/地价”，还有：

中长期电价政策与能源可获得性
地方对数据中心产业的长期态度变化
后续扩容（变电、冷源、用地）的空间

我们会刻意规避那些“短期看起来便宜，但未来高度不确定”的选项。

4. 自然灾害与区域冗余

包括：

地震带、洪水、极端天气等自然风险；
跨地域多数据中心的灾备拓扑和故障域拆分；

总体思路是：先从业务视角出发——云上云下混合、网络拓扑、容灾——然后在这个约束空间里再做成本和政策优化，而不是纯粹成本驱动。

服务器与网络从买什么到怎么用得更高效
图：聚焦服务器与网络的使用效率

作为数据中心基础设施的“后来者”，我们的优势就是可以直接站在行业已有实践之上做选择，而不是从0开始摸索。

我们的基本原则是：

不为了“炫技”而采用复杂方案；
不为了“差异化”而走冷门路线；
所有选型都要能在业务场景里说清收益；

1. 服务器：三大类型与资源池化

我们团队基于各自的职业经验和行业的快速发展，在服务器规划上做了一个取舍：与其做了非常多的SKU细分或者为了创新而研发不同的机型，不如围绕核心场景收敛几类标准机型，再通过上层的资源池化来吸收差异。

当前推出了三类形态：

计算型（单路）
- 面向各类Web服务、API、基础服务组件等；
- 单路配置，追求性能/成本比和部署密度；
- 结合内部调度系统做细粒度分配，提高CPU利用率；
推理型（两路 + 4 GPU）
- 面向在线推理 / 实时推荐 / 模型在线服务；
- 强调：PCIe拓扑合理、网络带宽和延迟可控、支持未来更高功率密度的散热方案；
- 这类节点通常需要纳入专门的推理集群调度体系；
存储型（高盘位）
- 典型配置：60盘位HDD；
- 服务于日志、内容存储、Warm/Cold Data等；
- 结合分布式存储软件构建统一存储池；

从运维和成本视角看，我们更关心的是集群利用率：

在调度和中间件层做资源抽象和池化；
减少业务直接和物理机绑定；
把“买了多少服务器”转化为“平均利用率是多少”；

服务器选型三大理念与策略
图：服务器选型的理念、架构特征与策略

2. 网络：POD + Super Bank + 超高速端口

网络侧，我们采用的是经过各个大厂验证的多级交换架构（CLOS），并结合AI集群的特点做了一些规划。

数据中心网络架构图
图：数据中心多级网络架构示意图

核心元素包括：

Spine–Leaf 架构 + POD 化部署
- 每个POD作为基础构建单元，内部使用Spine–Leaf；
- 方便做模块化扩展和分区部署；
- 较好地控制东西向流量和延迟；

图：Spine-Leaf网络拓扑简图

多平面 Super Bank
- 多个POD通过多平面方式组合成更大规模网络；
- 减少单Plane故障的整体影响；
- 支撑从数千到数万级服务器规模的发展；
传输速率与介质
- 核心链路采用超300G光模块；
- 局部场景（短距离、对带宽不敏感）配合铜缆，以平衡成本；
- 整体预留向更高速率演进的空间；

整体思路是在性能、可扩展性和成本之间找到一个相对平衡点，而不是追求单点“极致”。

智算数据中心设计集中布置预制化和风液冷双兼容
图：智算数据中心设计理念

在数据中心的风火水电层面的设计上，我们尽量避免“设施定死、未来被动适配”，而是从一开始就按AI高功率密度和散热路线的不确定性来预留空间。

1. 高集中度：IT核心区 + 环绕式基础设施

传统数据中心往往是IT设备与基础设施相对分散分区，我们采用的是相对集中化的方式：

IT包间（机柜、AI集群等）集中布局在中央核心区；
配电、制冷、水系统环绕核心区布置；

IT包间居中设施配套环绕的平面布局
图：IT包间居中，设施配套环绕的平面布局

这样带来的好处：

冷量和电力分配更集中，能效更好优化
水、电、冷的管线更短，降低损耗与复杂度
运维路径更清晰，巡检和应急响应更高效
对高功率密度区域可以集中“重点照顾”

2. 预制化：缩短交付周期，提升一致性

在新建和扩建项目中，我们尽量引入预制化模块，包括：

预制化电力模块（含变配电、UPS等）；
预制化制冷模块（冷机、冷却塔、分配单元）；
微模块数据中心单元；

预制化的价值主要体现在三点：

大部分复杂工作在工厂完成，质量更可控；
现场只做组装和调试，交付周期显著缩短；
模块统一标准，后期扩容和维护更可预测；

对于希望快速上线AI集群或补充算力的场景，这种方式非常实用。

3. 风冷 + 液冷：不押单一路线，提升基础设施的“可变性”

AI集群带来的机柜功率密度，已经在逼近传统风冷机房的上限，但液冷技术路线还在演进中（弥漫式风墙+冷板混合方案并存）。

图：弥漫送风与热通道密闭回风吊顶设计

我们的应对策略是：

从设计阶段就支持风冷 + 液冷混用；
可在较大比例区间内调整风冷/液冷（比如 5:5 → 1:9）；
在建筑、管道、配电上为液冷留出足够接口和冗余；
在末端空调上兼容不同形态（大风墙、小风墙等），适配高低功率密度混合部署；

这个思路的本质是：不赌哪一种散热方案会“胜出”，而是让基础设施具备根据业务发展和行业技术演进做调整的能力。

智慧运维从监控到自动化再到自优化
图：智慧运维的演进路径

数据中心真正的大头在运维周期。我们在这块的目标可以概括为三层：

把所有基础设施状态“看见”
把重复的动作“自动化”
在能效和安全约束内“自动调优”

智慧运维三层功能模块示意图
图：智慧运维的三层功能模块

1. 自动化分级：当前能力在 L2+，部分场景向 L3 演进

我们借用自动驾驶的分级方法来理解运维智能化水平：

当前整体能力：L2+（部分自动化）

大量标准事件可以自动识别与处置
运维人力集中在复杂故障与策略优化上

部分场景开始尝试：L3（高自动化）

基于负载预测和气象数据，预先调节冷源与机房参数；
IT包间内机柜电力等能耗数据的实时监控&分析；

这里对机柜电力等能耗数据的监控分析展开讲一下，特别是在机柜超出额定功耗（超电）的场景下我们的自动化分析策略。

结合柜内服务器、网络设备当前的实际使用情况，对用电负载进行梳理与评估。包括：

统计各服务器的数量、型号和功耗参数；
分析CPU、内存、存储等资源的占用率；
评估高负载应用或高并发业务对功率的影响；
初步判断是否存在持续超负载运行导致用电偏高的情况。

对柜内整体配电能力和运行状态进行核查。包括：

检查配电设计是否满足现有服务器规模和冗余要求，核对电表与监控数据是否存在偏差；
对可能存在的线路老化、接触不良、局部过热等隐患进行排查，评估是否存在因电气损耗或异常导致的额外功耗。

通过以上分析，向相关人员和群组推送超电的主要成因，并提供后续的整改措施（如设备优化、负载调整、配电改造等），并提供数据支撑和决策依据。

AI分析告警事件界面截图
图：AI分析告警事件界面，展示原因分析与处理建议

目标是逐步用系统取代高频重复劳动，把人释放出来做更有价值的事情。

2. DCIM：打通“风、火、水、电”的统一监控和分析

在基础设施监控系统（DCIM）上，我们选择与专业伙伴联合开发，而不是完全从头自研或直接照搬标准产品：

利用成熟产品能力，快速打通风、火、水、电等各系统数据接入；
再根据小红书的运维流程和组织结构做定制化；
建立统一模型和告警体系；

IDC监控大屏界面
图：IDC监控大屏，显示PUE、功率、告警等关键指标

最终目标是形成数据中心的“中枢神经系统”：

所有关键基础设施都有采集、看板、告警；
事件可以串起来，做关联分析和根因推断；
为后续自动化与智能调优提供数据基础；

3. 能效与PUE优化：用AI和实时数据“持续调参”

能效方面，我们不是简单地做一次性改造，而是做一个“不断调参数”的过程：

接入实时气象数据（温度、湿度、风速等）；
利用自研算法和AI模型，动态调整；
- 自然冷与机械冷的切换策略
- 冷水机组、水泵、冷却塔、末端风机的运行参数；
在保障业务连续性的前提下，压低能耗和PUE；

PUE预测与实际值对比图表
图：PUE预测精度对比，实际值与预测值趋势

我们也在尝试把“业务负载曲线”和“能耗曲线”结合起来，看有哪些任务可以在能效更高的时间窗口执行，为后续算电协同做准备。

AI绿色算力探索电力储能与算电协同
图：AI绿色算力探索方向

最后一部分，谈一下与AI算力紧密相关的“电力侧”探索，这块可能是未来几年变化最大的领域。

1. 绿电与自有电源能力

未来对于大型AI算力集群，电力已经不只是“成本项”，而是约束整个体系上限的关键变量。我们的思路可以概括为三点：

提高绿电占比（通过绿电交易、长期合同等路径）；
关注源网荷储一体化的可能性；
- 不只是“买电”，也要考虑未来一定程度的“自发自用”
- 从发电、输电、用电、储能一体规划，提高自洽能力
目标不是短期成本最小，而是长期电力供给的稳定性和可控性；

国际上，头部互联网大厂等已经在探索自建发电站（含核能/火电等），我们跟业内同仁认同一个判断：未来AI竞争的一条底层分界线，在于谁能更高效地获得大规模电力。

2. 储能：把“电”的时间维度拉长

储能技术是电力与算力之间的关键缓冲层，也是我们重点关注的方向之一：

化学储能（锂电、钠电等）；
机械储能（飞轮等）；
势能储能（抽水蓄能等）；

我们不会自己做底层技术研发，而是重点跟踪行业成熟方案，把它们：

与数据中心负载特性结合；
与电价峰谷、用电政策结合；
用来平滑电力波峰/波谷，支撑高功率AI任务执行；

储能对数据中心的意义不是简单“备用电源”，而是可以将算力消耗从电力高峰“平移”出来，为后面的算电协同打基础。

3. 算电协同：让算力任务和电价/电网状况“对齐”

最后一块是算力和电力的联动调度问题。我们正在探索这样一些方向：

把算力任务按“实时性/可延期性/优先级”做分级；
利用电价信号、电网负荷信息，把可延迟任务下沉到低电价/低负荷时段；
对跨地域的算力集群，考虑不同区域电价差异和用电政策差异，做整体调度；

简单说，就是：

即时业务（如在线推理）优先保障体验和稳定；
可延迟的大模型训练等任务尽量“追着低价电、低压电网”跑；

长期看，这块会是AI基础设施的重要优化空间。

总结与展望

小红书的数据中心和AI基础设施建设还在快速演进中，从全云到混合架构，从单一风冷到风/液冷兼容，从传统机房运维到更高水平的自动化，从强调单站点的能效PUE优化到数据中心间的算电协同，这中间有很多工程上的权衡和取舍。

我们没有把自己当成“行业范本”，更多是希望把一些真实的实践过程和决策逻辑分享出来，供大家参考：

在选址、机电设计、AI集群网络等方面的经验和坑
在DCIM、运维自动化、能效优化上的工具和方法
在绿电、储能、算电协同上的探索与试错

也期待后续有更多机会和同行深入沟通，互相借鉴，共同推动数据中心和AI基础设施的整体发展。

幽默卡通形象

如果你对小红书在云原生与高可用基础设施方面的更多实践感兴趣，欢迎持续关注云栈社区，我们将分享更多一线技术团队的深度思考与实战总结。

END标识

上一篇：如何在汇川AutoShop中为PLC配置第三方EtherCAT伺服驱动器？
下一篇：多平面网络架构设计：解析AI集群的高带宽与成本优化之道

数据中心, 混合云, 智算, 人工智能算力, 绿色算力

小红书AI算力底座实践：从混合云到自建智算中心的架构演进

1. 算力架构多元化发展

2. 自建基础设施势在必行

相关帖子

浏览过的版块