2028 字
10 分钟
【机器学习基本模型】第二节:逻辑回归

逻辑回归基本原理#

在上一节的线性回归中,我们解决的是回归问题(预测连续值)。而在模式识别与机器学习中,我们更常遇到的是 分类任务 ,例如判断一封邮件是否为垃圾邮件,或者判断一个人是否患有某种疾病。

对于这类二分类问题,输出标签通常为 y{0,1}y \in \{0, 1\} 。如果我们直接使用线性回归模型预测,输出值可能会远超 0 到 1 的范围,这在概率解释上是不合理的。为此,我们在线性模型的基础上引入了一个非线性激活函数 g:R(0,1)g: \mathbb{R} \to (0,1) ,将线性预测值映射为类别标签的后验概率 P(y=1x)P(y = 1 | \mathbf{x})

对数几率回归#

逻辑回归(Logistic Regression) 中,选用的激活函数为 Sigmoid 函数 ,其表达式为:

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

模型的预测目标是样本属于正类( y=1y=1 )的后验概率:

P(y=1x)=σ(wTx)=11+ewTxP(y = 1 | \mathbf{x}) = \sigma(\mathbf{w}^{\rm T} \mathbf{x}) = \frac{1}{1 + e^{-\mathbf{w}^{\rm T} \mathbf{x}}}

为了简化公式,我们通常采用 增广向量 的形式:

  • 增广特征向量 x=[x1,,xD,1]T\mathbf{x} = [x_1, \cdots, x_D, 1]^{\rm T}
  • 增广权重向量 w=[w1,,wD,b]T\mathbf{w} = [w_1, \cdots, w_D, b]^{\rm T}

此时,样本属于负类( y=0y=0 )的后验概率为:

P(y=0x)=1P(y=1x)=1σ(wTx)=ewTx1+ewTxP(y=0 | \mathbf{x}) = 1 - P(y=1 | \mathbf{x}) = 1 - \sigma(\mathbf{w}^{\rm T} \mathbf{x}) = \frac{e^{- \mathbf{w}^{\rm T} \mathbf{x}}}{1 + e^{- \mathbf{w}^{\rm T} \mathbf{x}}}

通过推导,我们可以发现线性模型 wTx\mathbf{w}^{\rm T} \mathbf{x} 与概率之间的关系:

wTx=lnP(y=1x)1P(y=1x)=lnP(y=1x)P(y=0x)\mathbf{w}^{\rm T} \mathbf{x} = \ln \frac{P(y=1 | \mathbf{x})}{1 - P(y=1 | \mathbf{x})} = \ln \frac{P(y=1 | \mathbf{x})}{P(y=0 | \mathbf{x})}

该公式左侧为典型的 线性函数 ,右侧则是将后验概率之比(数学上称为 几率 ,Odds)通过对数变换映射至实数域,这种建立线性预测值与 对数几率 之间映射关系的方法,也正是 Logistic 回归被称为 对数几率回归 的由来。

逻辑回归图像


逻辑回归代码讲解#

下面我们使用 Python 的 NumPy 库来手写实现一个逻辑回归模型。为了让代码结构更加紧凑,并能够直接表达数学公式的含义,示例中会用到 匿名函数(Lambda Function) 来定义核心运算。

值得注意的是,为了与前面理论部分所使用的 增广向量(Augmented Vector) 保持一致,我们会在输入特征矩阵 XX 的最左侧额外添加一列常数 1,从而把偏置项 bb 吸收到权重向量 ww 中统一处理。这样不仅使参数更新的形式更加整齐,也顺便修复了原版本代码中函数返回值与参数解包数量不匹配的问题,使整体实现更加规范和可靠。

下面给出逻辑回归的完整代码:

main.py
import numpy as np
np.random.seed(0)
X = np.random.randn(100, 2)
true_w = np.array([2, -1])
sigmoid = lambda x: 1 / (1 + np.exp(-x))
y = (sigmoid(X @ true_w) > 0.5).astype(int)
# 激活函数
sigmoid = lambda x: 1 / (1 + np.exp(-x))
# 损失函数
loss_func = lambda X, y, w: -np.mean(
y * np.log(sigmoid(X @ w)) + (1 - y) * np.log(1 - sigmoid(X @ w))
)
# 梯度下降
gradient = lambda X, y, w: X.T @ (sigmoid(X @ w) - y) / len(y)
def grad_desc(cur_w, alpha, X, y):
grad = gradient(X, y, cur_w)
updated_w = cur_w - alpha * grad
return updated_w
# 主函数
def main(X, y, initial_w, alpha, num_iter):
w = initial_w
# 定义一个list保存所有的损失函数值,用来显示下降的过程
cost_list = []
for i in range(num_iter):
cost_list.append(loss_func(X, y, w))
w, b = grad_desc(w, alpha, X, y)
return [w, b, cost_list]
# 设置超参数
alpha = 0.1
initial_w = np.zeros(X.shape[1])
num_iter = 1000
# 执行代码
if __name__ == "__main__":
w, cost_list = main(X, y, initial_w, alpha, num_iter)
print("\n训练结束")
print("w =", w)
cost = loss_func(X, y, w)
print("cost =", cost)

1. 损失函数#

与线性回归使用均方误差(MSE)不同,逻辑回归采用的是 交叉熵损失(Cross-Entropy Loss)。其核心原因在于:如果将 Sigmoid 函数套入 MSE 中,所得损失函数在参数空间里会变成一个 非凸函数(Non-Convex),可能具有多个局部极小值,从而使梯度下降难以稳定地找到全局最优解。相比之下,交叉熵损失在逻辑回归的模型结构下是一个凸函数,具备更好的优化特性,因此成为逻辑回归的标准选择。

更多细节可以参考以下视频深入了解

先来看一下代码中的损失函数实现:

loss_func = lambda X, y, w: -np.mean(
y * np.log(sigmoid(X @ w)) + (1 - y) * np.log(1 - sigmoid(X @ w))
)

对应的数学表达式为交叉熵损失函数:

J(w)=1Ni=1N[yiln(y^i)+(1yi)ln(1y^i)]J(\mathbf{w}) = -\frac{1}{N} \sum_{i=1}^{N} \Big[ y_i \ln(\hat{y}_i) + (1 - y_i)\ln(1 - \hat{y}_i) \Big]

其中 y^i=σ(xiw)\hat{y}_i = \sigma(\mathbf{x}_i \mathbf{w}) 表示模型对第 ii 个样本的预测概率。

2. 梯度下降#

逻辑回归在模型形式上与线性回归非常相似,只是在预测输出上多了一层 Sigmoid 激活函数 。从微积分角度来看,这仅仅增加了链式法则中的一个环节。代码中梯度计算的实现非常简洁:

gradient = lambda X, y, w: X.T @ (sigmoid(X @ w) - y) / len(y)
def grad_desc(cur_w, alpha, X, y):
grad = gradient(X, y, cur_w)
updated_w = cur_w - alpha * grad
return updated_w

其数学推导如下:

  • 预测值
y^=σ(Xw)=11+eXw\hat{y} = \sigma(X\mathbf{w}) = \frac{1}{1 + e^{-X\mathbf{w}}}
  • 损失函数
J(w)=1Ni=1N[yiln(y^i)+(1yi)ln(1y^i)]J(\mathbf{w}) = -\frac{1}{N} \sum_{i=1}^{N} \Big[ y_i \ln(\hat{y}_i) + (1 - y_i)\ln(1 - \hat{y}_i) \Big]
  • 权重梯度
J(w)=J(w)w=1NXT(y^y)\nabla J(\mathbf{w}) = \frac{\partial J(\mathbf{w})}{\partial \mathbf{w}} = \frac{1}{N} X^{\rm T} (\hat{y} - y)

可以看到,这一梯度推导的最终形式与线性回归在结构上几乎一致,只是将预测值替换为逻辑回归中的 y^\hat{y} 。正因为两者在形式上的高度相似,逻辑回归也被视为 广义线性模型(GLM) 的一个典型特例。

3. 内容拓展#

Logistic 回归本质上是一个 线性分类器 ,其决策边界是线性的(即 wTx=0\mathbf{w}^{\rm T} \mathbf{x} = 0 是一个超平面)。对于 线性不可分 的数据,我们可以通过 特征工程 来提升模型的表达能力。

常见的特征扩展(Feature Expansion)方法包括:

  • 多项式特征:引入 x12x_1^2x22x_2^2x1x2x_1x_2 等高阶项使决策边界变为二次曲线。
  • 交互式特征:构造特征之间的乘积、比值等,刻画变量间的耦合关系。

本质上,这是通过将低维的原始特征映射到高维空间,使得数据在高维空间中变得线性可分。但需要警惕的是,特征维度过高容易导致 过拟合(Overfitting) ,通常需要配合正则化(L1/L2 Regularization)使用。


深层问题探究#

  1. 为什么逻辑回归在线性回归的基础上套一层激活函数就可以进行分类呢?

    这个问题可以从 直观理解数学本质 两个层面来回答:

    直观理解:数值区间的映射 线性回归的预测输出 z=wTxz = \mathbf{w}^{\rm T} \mathbf{x} 的范围是 (,+)(-\infty, +\infty) ,而二分类任务要求的概率 P(y=1x)P(y=1|\mathbf{x}) 必须处于 [0,1][0, 1] 之间。Sigmoid 函数 σ(z)\sigma(z) 的作用就是将任意实数 映射(压缩)(0,1)(0, 1) 区间,使其具有概率的物理意义。

    数学本质:对数几率的线性假设 逻辑回归本质上是 广义线性模型 的一种。我们并非随意选择了一个激活函数,而是基于一个核心假设:样本为正类的对数几率与输入特征之间存在线性关系

    几率定义为正类概率与负类概率的比值:

    P(y=1x)P(y=0x)\frac{P(y=1|\mathbf{x})}{P(y=0|\mathbf{x})}

    对几率取对数,即得到 Logit 变换

    logit(P)=lnP(y=1x)P(y=0x)=wTx\text{logit}(P) = \ln \frac{P(y=1 | \mathbf{x})}{P(y=0 | \mathbf{x})} = \mathbf{w}^{\rm T} \mathbf{x}

    如果我们对上述公式进行 逆变换 ,求解 P(y=1x)P(y=1 | \mathbf{x}) 就会自然导出 Sigmoid 函数的形式:

    P1P=ewTx    P(y=1x)=11+ewTx=σ(wTx)\frac{P}{1-P} = e^{\mathbf{w}^{\rm T} \mathbf{x}} \implies P(y=1 | \mathbf{x}) = \frac{1}{1 + e^{- \mathbf{w}^{\rm T} \mathbf{x}}} = \sigma(\mathbf{w}^{\rm T} \mathbf{x})

    结论:Sigmoid 函数并非仅仅是套在外部的一层壳,它是 对数几率线性假设 在概率空间上的 逆映射


参考文献列表#

  1. Logistic回归(逻辑回归)原理详解

  2. Scikit-Learn 官方文档: LogisticRegression

【机器学习基本模型】第二节:逻辑回归
https://xingguang641.com/posts/regression-model/logistic-regression/
作者
星光
发布于
2025-10-23
许可协议
CC BY-NC-SA 4.0