|
1 | | -# 7.4 训练误差率的 optimism |
| 1 | +# 7.4 训练误差率的乐观偏差 |
2 | 2 |
|
3 | 3 | | 原文 | [The Elements of Statistical Learning](https://esl.hohoweiya.xyz/book/The%20Elements%20of%20Statistical%20Learning.pdf#page=247) | |
4 | 4 | | ---- | ---------------------------------------- | |
|
38 | 38 | 部分差异是因为取值点的选取.值 $\Err_{\cal T}$ 可以看成是 **样本外误差 (extra-sample error)**,因为测试输入向量不需要与训练输入向量一致.当我们去关注 **样本内误差 (in-sample error)**,可以很简单地理解 $\overline{\err}$ 乐观估计的本质 |
39 | 39 |
|
40 | 40 | $$ |
41 | | -\Err_{in}=\frac{1}{N}\sum_{i=1}^N\mathrm E_{Y^0}[L(Y_i^0,\hat f(x_i))\mid {\cal T}]\tag{7.18}\label{7.18} |
| 41 | +\Err_{\text{in}}=\frac{1}{N}\sum_{i=1}^N\mathrm E_{Y^0}[L(Y_i^0,\hat f(x_i))\mid {\cal T}]\tag{7.18}\label{7.18} |
42 | 42 | $$ |
43 | 43 |
|
44 | | -$Y^0$ 表示我们在每个训练点 $x_i,i=1,2,\ldots,N$ 处观测 $N$ 个新响应变量的值.我们定义 $\Err_{in}$ 与训练误差 $\overline{\err}$ 的差为 **乐观 (optimism)**: |
| 44 | +$Y^0$ 表示我们在每个训练点 $x_i,i=1,2,\ldots,N$ 处观测 $N$ 个新响应变量的值.我们定义 $\Err_{\text{in}}$ 与训练误差 $\overline{\err}$ 的差为 **乐观偏差 (optimism)**: |
45 | 45 |
|
46 | 46 | $$ |
47 | | -\mathrm {op}\equiv \mathrm{Err}_{in}-\overline{\err}\tag{7.19}\label{7.19} |
| 47 | +\mathrm {op}\equiv \mathrm{Err}_{\text{in}}-\overline{\err}\tag{7.19}\label{7.19} |
48 | 48 | $$ |
49 | 49 |
|
50 | 50 | 一般情形下这是正的,因为 $\overline{\err}$ 经常是预测误差的向下有偏估计.最终,平均乐观是乐观在训练集上的期望 |
|
69 | 69 | 总结一下,我们有重要的关系式 |
70 | 70 |
|
71 | 71 | $$ |
72 | | -\E_{\mathbf y}(\Err_{in})=\E_{\mathbf y}(\overline{\err})+\frac{2}{N}\sum\limits_{i=1}^N\Cov(\hat y_i,y_i)\tag{7.22}\label{7.22} |
| 72 | +\E_{\mathbf y}(\Err_{\text{in}})=\E_{\mathbf y}(\overline{\err})+\frac{2}{N}\sum\limits_{i=1}^N\Cov(\hat y_i,y_i)\tag{7.22}\label{7.22} |
73 | 73 | $$ |
74 | 74 |
|
75 | 75 | 如果 $\hat y_i$ 通过含 $d$ 个输入或者基函数的线性拟合得到,上面表达式可以简化.例如,对于可加误差模型 $Y=f(X)+\varepsilon$, |
|
81 | 81 | 因此 |
82 | 82 |
|
83 | 83 | $$ |
84 | | -\E_{\mathbf y}(\Err_{in})=\E_{\mathbf y}(\overline{\err})+2\cdot\frac{d}{N}\sigma_\varepsilon^2\tag{7.24}\label{7.24} |
| 84 | +\E_{\mathbf y}(\Err_{\text{in}})=\E_{\mathbf y}(\overline{\err})+2\cdot\frac{d}{N}\sigma_\varepsilon^2\tag{7.24}\label{7.24} |
85 | 85 | $$ |
86 | 86 |
|
87 | 87 | !!! note "weiya 注:\eqref{7.24}" |
88 | 88 | [Issue 27: Ex. 7.4](https://github.com/szcf-weiya/ESL-CN/issues/27) 的解答中也给出了 \eqref{7.24} 的推导。 |
89 | 89 |
|
90 | 90 | 表达式 $\eqref{7.23}$ 是将在 [7.6 节](7.6-The-Effective-Number-of-Parameters/index.html)讨论的 **有效参数个数 (effective number of parameters)** 定义的基础.optimism 随着我们使用的输入或基函数的个数 $d$ 线性增长,但是当训练样本大小增大时会降低.$\eqref{7.24}$ 的其它版本对其它误差模型也近似成立,比如二值数据和熵损失. |
91 | 91 |
|
92 | | -估计预测误差的一种明显方法是先估计 optimism 然后加到训练误差 $\overline{\err}$ 上.下一节将要描述的方法—— $C_p$,AIC,BIC 以及其它方法——对于估计关于参数是线性的特殊估计类,都是通过这种方式实现. |
| 92 | +估计预测误差的一种明显方法是先估计 optimism 然后加到训练误差 $\overline{\err}$ 上.下一节将要描述的方法—$C_p$,AIC,BIC 以及其它方法—对于估计关于参数是线性的特殊估计类,都是通过这种方式实现. |
93 | 93 |
|
94 | 94 | 相反地,将在本章后面描述的交叉验证以及自助法是对 **样本外 (extra-sample)** 误差 $\Err$ 直接估计的方法.这些一般工具可以用于任意损失函数以及非线性自适应拟合技巧. |
95 | 95 |
|
|
0 commit comments