云栈社区»论坛 › 站务中心「 Forum Service 」 › 相关系数完全解析：从线性关系到特征筛选的应用指南 ...

发回帖发新帖

5139 积分	0 好友	699 主题

发消息

相关系数完全解析：从线性关系到特征筛选的应用指南

发表于 2 小时前 | 查看: 3| 回复: 0

无论是做数据分析、特征工程还是模型训练，我们总会反复遇到一个核心问题：两个变量之间到底有没有关联？如果有，这种关联是强是弱，是正还是负？此时，相关系数就是用来回答这个问题的数字工具。它可以快速用 -1 到 1 之间的一个数，表征两个变量“是不是一块儿变”，以及“变得有多整齐”。

原始数据告诉我们的只是“每个变量各自取什么值”，而相关系数告诉我们的是“变量与变量之间有什么样的关系”。因此，它在人工智能与数据分析流程中具有非常基础且重要的地位。

一、基本概念：什么是相关系数

相关系数（Correlation Coefficient） 是用来衡量两个变量之间相关程度的统计量。最常见的是 皮尔逊相关系数（Pearson Correlation Coefficient），它主要侧重于描述两个变量之间的线性关系强弱。

若有两个变量 X 和 Y，它们的皮尔逊相关系数通常记作 r：

$$ r = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} $$

其中：

$Cov(X, Y)$ 表示 $X$ 与 $Y$ 的协方差（Covariance）
$\sigma_X$ 和 $\sigma_Y$ 分别表示 $X$ 和 $Y$ 的样本标准差

如果以样本数据的常见形式展开，也可以表示为：

$$ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} $$

这里的公式含义可以分三步理解：

先看 $X$ 的每个取值偏离自身平均水平有多少；
再看 $Y$ 的每个取值偏离自身平均水平有多少；
最后观察它们是否经常“同向偏离”或“反向偏离”，并将其标准化到一个不受单位影响的范围内。

从通俗角度理解：相关系数就是一个描述两个变量是否“同涨同跌”、“一涨一跌”或“没什么关联”的概括性数字。

例如：

若一个学生数学分数高时，物理分数往往也高，那么数学和物理可能就是正相关；
若温度升高时，取暖支出往往下降，那么温度和取暖费用可能就是负相关；
若两个变量的变化之间看不出明显同步关系，那么它们的相关性可能就较弱。

相关系数的取值在 -1 到 1 之间：

r 接近 1：较强的正相关
r 接近 -1：较强的负相关
r 接近 0：线性相关很弱或几乎不存在

（1）正相关
若系数大于 0，通常一个变量增大时，另一个也倾向于增大。越接近 1，这种同向变化越明显。例如学习时间与考试成绩、身高与体重，在多数样本中都可能展现正相关。

（2）负相关
若系数小于 0，通常一个变量增大时，另一个倾向于减小。越接近 -1，这种反向变化越明显。例如车速与到达所需时间、温度与取暖需求，就常呈现负相关趋势。

（3）相关性弱或接近无相关
系数接近 0 时，通常意味着两者之间不存在明显的线性关系。但务必注意——这不等于两者完全没关系，可能只是线性关系不强而已。

总而言之，相关系数就是一个用来概括“两个变量是否一块儿变，变得有多整齐”的数值。

二、相关系数的重要性与常见应用场景

1、相关系数为什么这么重要？

在数据分析中，我们常常不满足于只了解“每个变量是什么”，更迫切地想搞清楚“变量之间是什么关系”。

快速发现关联：高度相关的变量之间大概率存在着某种统计联系，这往往是深入分析数据结构的切入点。
探索性数据分析（EDA）：建模之前，提前通过相关系数审视变量关系，能判断哪些特征价值更大，哪些特征可能存在冗余。
识别共线性问题：在回归类模型中，如果多个自变量彼此高度相关，就容易引发多重共线性，从而削弱模型的稳定性与解释力。相关系数是发现这类隐患的第一步。

可以说：原始数据说明了“变量分别是什么”，而相关系数说明了“变量之间关系如何”。

2、常见应用场景

数据探索初期：初步判断变量关系的强弱，快速定位值得关注的变量。
特征工程阶段：如果某特征与目标变量高度相关，它往往更有预测价值；如果两个输入特征彼此高度相关，很可能存在信息重叠。
线性回归中辅助判断：虽然不能取代完整建模，但相关系数可以帮助分析者初步感知变量与目标之间是否存在明显的线性联系。
相关性矩阵的构建：相关性矩阵本质上就是一系列两两相关系数的集合。想读懂矩阵，就要先理解相关系数。
可视化结合分析：散点图提供直观的形态，相关系数则将其压缩为一个可比较的数值。在 Python 的数据分析栈里，二者配合使用往往能让理解更深一层。

三、相关系数中“相关”的真正含义

相关系数虽然常用，但“相关”这个概念太容易被误解，有必要单独澄清几点：

1、相关 ≠ 因果

这是最容易踩的坑。两个变量相关系数再高，也只代表它们在数据上存在统计关联，不能直接证明谁因谁果。例如：

夏天，冰淇淋销量上升
夏天，游泳人数也上升

两者正相关，但显然不是“买冰淇淋”导致了“去游泳”，更合理的解释是天气变热同时影响了二者。所以，相关系数能帮我们找到关系，但不能单独证明因果关系。

2、皮尔逊相关系数默认关注线性关系

皮尔逊相关衡量的是线性关联。如果两个变量之间存在弧线、弯曲之类的非线性关系，皮尔逊系数也可能接近 0。因此，系数低并不等于“完全没关系”，更准确的表述是“线性关系不明显”。

3、正相关和负相关同等重要

初学者有时会觉得“负相关”好像是坏事，其实不然。负相关同样是一种明确且有用的方向信息。比如温度升高导致取暖支出下降、速度提升导致到达时间缩短，这些反向关系在分析中同样极具价值。

四、与相关系数相关的几个常见概念

1、相关系数与协方差

协方差（Covariance）也能反映两个变量是否协同变化，但它的取值极易受变量单位和尺度影响。相关系数可以理解为对协方差做了标准化处理，使其取值统一在 -1 到 1 之间，更方便横向比较。简单说：协方差告诉你“是否同向变化”，相关系数更进一步告诉你“方向和强弱，并完成了尺度统一”。

2、相关系数与相关性矩阵

一个相关系数只对应一对变量。当变量多起来时，把所有两两相关系数排成一张表格，就形成了相关性矩阵。因此，相关系数是基本单元；而相关性矩阵是整体的整理形式。

3、皮尔逊、斯皮尔曼与肯德尔相关

虽然皮尔逊最常见，但相关系数大家族还有别的成员：

皮尔逊相关系数：侧重线性关系
斯皮尔曼相关系数：基于排序，更适合单调关系分析
肯德尔相关系数：同样常用于排序一致性检验

初学阶段优先掌握皮尔逊即可，但心里要有数：相关系数不止一种。

五、使用相关系数时需要注意的问题

对异常值敏感
皮尔逊相关系数容易受到极端值的明显拉扯。一个或少数几个离群点就可能让系数大小甚至符号发生剧变，因此分析时最好配合散点图一起观察。
不能脱离样本量解释
同一个系数值，在小样本下可能极不稳定，在大样本下才更有参考价值。只看数值而忽视数据量，会得出误导性结论。
相关系数高，不代表可以直接建模
高度相关只是统计层面的事，真实建模时还需要警惕隐藏变量、非线性结构或分组效应等更复杂的情况。
系数低，不等于变量无用
某个变量与目标变量的线性相关性不强，并不代表它对模型没有价值。它可能以非线性方式默默贡献，或与其他变量组合后效果才显现。
系数只是概括，不是完整的解释
把关系压缩成一个数固然方便，但也必然会丢失大量细节。实际工作中，最好配以散点图、分布图以及具体业务背景一起解读。在探索数据挖掘或 AIGC 相关特征时尤其如此。

六、Python 示例

下面用两个简单示例，直观展示在 Python 中如何计算相关系数，以及它如何揭示变量间的方向与强弱。

示例 1：使用 pandas 计算两变量相关系数

import pandas as pd

# 构造两组数据
math_score = [80, 85, 78, 90, 88]
physics_score = [82, 87, 76, 91, 89]

# 构造成 DataFrame
df = pd.DataFrame({
    "数学": math_score,
    "物理": physics_score
})

# 计算相关系数
corr_value = df["数学"].corr(df["物理"])

print("数学成绩：", math_score)
print("物理成绩：", physics_score)
print("相关系数：", corr_value)

这个例子展示了最基础的在 DataFrame 中计算皮尔逊系数的流程。如果算出的结果接近 1，通常表明这两组数据具有很强的正向线性关系。

示例 2：并排对比正相关与负相关

import pandas as pd

# 一组正相关数据
x1 = [1, 2, 3, 4, 5]
y1 = [2, 4, 6, 8, 10]

# 一组负相关数据
x2 = [1, 2, 3, 4, 5]
y2 = [10, 8, 6, 4, 2]

# 计算相关系数
corr_positive = pd.Series(x1).corr(pd.Series(y1))
corr_negative = pd.Series(x2).corr(pd.Series(y2))

print("正相关示例的相关系数：", corr_positive)
print("负相关示例的相关系数：", corr_negative)

代码运行后你会清晰看到：

当两个变量一起增大时，相关系数非常接近 1
当一个变量增大而另一个减少时，相关系数非常接近 -1

这样一来，“正相关”和“负相关”之间的差异就能一目了然。

📘 小结

相关系数是一种描述两变量关系方向与强弱的统计量。它能帮我们判断变量是同向变化、反向变化，还是线性关系不明显。在数据探索、特征分析、相关性矩阵构建以及建模前的初步判断中，相关系数都是极其高频的工具。

对初学者来说，一个很友好的理解角度是：原始数据回答“变量各自是什么”，而相关系数回答“它们之间是不是一块儿变，以及变得有多明显”。