Skip to content

Commit cf8bf9a

Browse files
committed
update tags
1 parent 1294899 commit cf8bf9a

File tree

32 files changed

+78
-75
lines changed

32 files changed

+78
-75
lines changed

docs/01-Introduction/1.1-Introduction.md

Lines changed: 4 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,9 @@
33
原文 | [The Elements of Statistical Learning](https://esl.hohoweiya.xyz/book/The%20Elements%20of%20Statistical%20Learning.pdf#page=20)
44
---|---
55
翻译 | szcf-weiya
6-
发布 | 2016-09-30
6+
发布 | 2016-09-30
7+
更新 | {{ git_revision_date }}
8+
79

810
统计学习在科学、经济和工业的许多领域都扮演着重要角色.下面是学习问题中的一些例子.
911

@@ -52,7 +54,7 @@
5254

5355
> 图 1.1 是前列腺癌数据的散点图矩阵.第一行显示了响应变量和自变量之间的关系.其中两个自变量,*svi**gleason*是类别型变量.
5456
55-
这个例子的数据如图 1.1 所示,来自 Stamey et al. (1989)[^1] 检验 **前列腺癌特定抗原水平 (PSA)** 和临床措施之间相关性的研究,其中有 97 名男性接受了彻底的前列腺切除术.
57+
这个例子的数据如图 1.1 所示,来自 Stamey et al. (1989)[^1] 检验 **前列腺癌特定抗原水平 (prostate specific antigen, PSA)** 和临床措施之间相关性的研究,其中有 97 名男性接受了彻底的前列腺切除术.
5658

5759
目标是根据癌体积的对数值(*lcavol*)、前列腺重量的对数值(*lweight*)、良性前列腺增生数量(*lbph*)、精囊浸润(*svi*)、包膜浸透的对数值(*lcp*)、Gleason得分(*gleason*)、Gleason得分为4或5的比例(*pgg45*)来预测PSA的对数值(*lpsa*).图1.1是这些变量的散点图矩阵.一些和(*lpsa*)的值是显著的,但是一个好的预测模型是很难根据眼睛构造出来的.
5860

docs/03-Linear-Methods-for-Regression/3.4-Shrinkage-Methods.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -12,7 +12,7 @@
1212

1313
## 岭回归
1414

15-
**岭回归 (Ridge regression)** 根据回归系数的大小加上惩罚因子对它们进行收缩.岭回归的系数使得带惩罚的残差平方和最小
15+
**岭回归 (ridge regression)** 根据回归系数的大小加上惩罚因子对它们进行收缩.岭回归的系数使得带惩罚的残差平方和最小
1616

1717
$$
1818
\hat{\beta}^{ridge}=\underset{\beta}{\arg\min}\Big\{\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2+\lambda\sum\limits_{j=1}^p\beta_j^2\Big\}\tag{3.41}\label{3.41}
@@ -102,7 +102,7 @@ $$
102102
> 则$\lambda=\frac{\sigma^2}{\tau^2}$,且岭回归估计是后验分布的众数.
103103
-->
104104

105-
中心化输入矩阵 $\mathbf{X}$ 的 **奇异值分解 (SVD)** 让我们进一步了解了岭回归的本质.这个分解在许多统计方法分析中非常有用.$N\times p$ 阶矩阵 $\mathbf{X}$ 的 SVD 分解有如下形式
105+
中心化输入矩阵 $\mathbf{X}$ 的 **奇异值分解 (singular value decomposition, SVD)** 让我们进一步了解了岭回归的本质.这个分解在许多统计方法分析中非常有用.$N\times p$ 阶矩阵 $\mathbf{X}$ 的 SVD 分解有如下形式
106106

107107
$$
108108
\mathbf{X=UDV^T}\tag{3.45}\label{3.45}
@@ -314,7 +314,7 @@ $$
314314
315315
## 最小角回归
316316

317-
**最小角回归 (LAR)** 是相对较新的方法 (Efron et al., 2004[^3]),而且可以看成是一种向前逐步回归(3.3.2 节)的“民主 (democratic)”版本.正如我们将看到的,LAR 与 lasso 联系紧密,并且事实上提供了如图 3.10 所示的计算整个 lasso 路径的非常有效的算法.
317+
**最小角回归 (least angle regression, LAR)** 是相对较新的方法 (Efron et al., 2004[^3]),而且可以看成是一种向前逐步回归(3.3.2 节)的“民主 (democratic)”版本.正如我们将看到的,LAR 与 lasso 联系紧密,并且事实上提供了如图 3.10 所示的计算整个 lasso 路径的非常有效的算法.
318318

319319
!!! note "weiya 注:"
320320
在 Efron 的论文中,最小角回归缩写为 LARS,我们这里仍以 ESL 书上的缩写为准——LAR

docs/04-Linear-Methods-for-Classification/4.5-Separating-Hyperplanes.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -27,7 +27,7 @@ $$
2727
!!! info "weiya 注:Ex. 4.2"
2828
具体证明过程见[Issue 108: Ex. 4.2](https://github.com/szcf-weiya/ESL-CN/issues/108)
2929

30-
类似 $\eqref{4.39}$ 的分类器计算输入特征的线性组合并且返回符号,在 1950s 末期称之为**感知器 (perceptrons)** (Rosenblatt,1958[^1]) .感知器是 1980s 和 1990s 神经网络模型的基础.
30+
类似 $\eqref{4.39}$ 的分类器计算输入特征的线性组合并且返回符号,在 1950s 末期称之为**感知器 (perceptron)** (Rosenblatt,1958[^1]) .感知器是 1980s 和 1990s 神经网络模型的基础.
3131

3232
在我们继续之前,稍微岔开去回顾一些向量代数的知识.图 4.15 描述了由等式 $f(x)=\beta_0+\beta^Tx=0$ 定义的超平面或仿射集 $L$;因为我们是在 $\IR^2$ 空间中,所以这是一条直线.这里我们列出一些性质:
3333

docs/05-Basis-Expansions-and-Regularization/5.5-Automatic-Selection-of-the-Smoothing-Parameters.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -64,7 +64,7 @@ $$
6464

6565
中间的曲线似乎恰恰实现了偏差与方差之间的平衡.
6666

67-
**积分平方预测误差 (EPE)** 用一个总结式结合了偏差和方差:
67+
**积分平方预测误差 (integrated squared prediction error, EPE)** 用一个总结式结合了偏差和方差:
6868

6969
$$
7070
\begin{align}

docs/06-Kernel-Smoothing-Methods/6.0-Introduction.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,7 @@
77
| 更新 | {{ git_revision_date }}|
88
|状态|Done|
99

10-
这章中我们描述一类回归技巧,这类技巧能够通过某种方式实现在定义域 $\IR^p$ 中估计回归函数 $f(X)$ 的灵活性,这种方式是在每个查询点 $x_0$ 处分别拟合不同但简单的模型.仅仅使用离目标点很近的观测点来拟合这个简单的模型,这种方式得到的估计函数 $\hat f(X)$ 在 $\IR^p$ 是光滑的.这个局部化可以通过一个加权的函数或者 **核 (kernel)** 函数 $K_\lambda(x_0,x_i)$ 来实现,核函数是基于 $x_i$ 到 $x_0$ 的距离赋予一个权重.核 $K_\lambda$ 一般地通过参数 $\lambda$ 来编号,参数 $\lambda$ 规定了邻域的宽度.原则上,这些 **基于内存的 (memory-based)** 的方法需要很少或者不需要训练;所有的工作在 **赋值 (evaluation)** 阶段便完成了.根据训练集唯一需要确定的参数是 $\lambda$.然而,该模型是整个训练数据集.
10+
这章中我们描述一类回归技巧,这类技巧能够通过某种方式实现在定义域 $\IR^p$ 中估计回归函数 $f(X)$ 的灵活性,这种方式是在每个查询点 $x_0$ 处分别拟合不同但简单的模型.仅仅使用离目标点很近的观测点来拟合这个简单的模型,这种方式得到的估计函数 $\hat f(X)$ 在 $\IR^p$ 是光滑的.这个局部化可以通过一个加权的函数或者 **核 (kernel)** 函数 $K_\lambda(x_0,x_i)$ 来实现,核函数是基于 $x_i$ 到 $x_0$ 的距离赋予一个权重.核 $K_\lambda$ 一般地通过参数 $\lambda$ 来编号,参数 $\lambda$ 规定了邻域的宽度.原则上,这些 **基于记忆的 (memory-based)** 的方法需要很少或者不需要训练;所有的工作在 **赋值 (evaluation)** 阶段便完成了.根据训练集唯一需要确定的参数是 $\lambda$.然而,该模型是整个训练数据集.
1111

1212
我们也讨论更加一般类别的基于核的技巧,它们与其他章节中结构化的方法联系在一起了,这在密度估计和分类中很有用.
1313

docs/06-Kernel-Smoothing-Methods/6.1-One-Dimensional-Kernel-Smoothers.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -108,7 +108,7 @@ $$
108108
$$
109109

110110
!!! note "weiya 注"
111-
**广义最小二乘估计 (GLSE)**
111+
**广义最小二乘估计 (generalized least squares estimation, GLSE)**
112112
线性模型为
113113
$$
114114
\mathbf{Y=X}\beta+e,\; \E(e)=0,\; \Cov(e)=\sigma^2\mathbf\Sigma
@@ -121,7 +121,7 @@ $$
121121
$$
122122
\Cov(e)=\diag(\sigma_1^2,\cdots,\sigma^2_n)
123123
$$
124-
**加权最小二乘估计 (WLSE)**
124+
**加权最小二乘估计 (weighted least squares estimation, WLSE)**
125125

126126
等式 \eqref{6.8} 给出了局部线性回归估计的显式表达,式 \eqref{6.9} 强调了估计关于 $y_i$ 为线性的($l_i(x_0)$ 不涉及 $\mathbf y$).这些权重 $l_i(x_0)$ 结合了核 $K_\lambda(x_0,\cdot)$ 和最小二乘估计,并且有时称作 **等价核 (equivalent kernel)**.图 6.4 说明了局部线性回归在等价核上的影响.从历史上看,Nadaraya–Watson 和其他局部平均核方法中的偏差是通过修改核本身进行纠正.这些修改基于理论渐近的均方误差,不仅很复杂,而且只对有限样本进行近似.局部线性回归自动地修改核将偏差矫正到恰好为一阶,这是被称为 **自动核作品 (automatic kernel carpentry)** 的现象.
127127

docs/06-Kernel-Smoothing-Methods/6.7-Radial-Basis-Functions-and-Kernels.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -33,7 +33,7 @@ $$
3333

3434
​这个模型一般称为 RBF 网络,这是 S 型神经网络的替代选择,将在 [第 11 章](../11-Neural-Networks/11.1-Introduction/index.html) 讨论;$\xi_j$ 和 $\lambda_j$ 起到权重的作用.这个准则是有着多重局部最小点的非凸函数,并且优化的算法类似神经网络中的算法.
3535

36-
- 分开估计 $\\{\lambda_j,\xi_j\\}$ 和 $\beta_j$.给定前者,后者的估计是简单的最小二乘问题.通常单独用 $X$ 的分布,以非监督的方式选择核参数 $\lambda_j$ 和 $\xi_j$.其中一种方式是对训练 $x_i$ 拟合高斯混合密度模型,这样可以得到中心 $\xi_j$ 和缩放 $\lambda_j$.其它更**临时的 (adhoc)** 方式是使用聚类方法来确定原型 $\xi_j$,并且将 $\lambda_j=\lambda$ 看成是超参数.这些方式的显然缺点是条件分布 $\Pr(Y\mid X)$ 以及 $\E(Y\mid X)$ 在决定“主要作用集中在哪儿 (where the action is concentrated)” 时没有任何发言权.不过它们的优点是,可以更简单地实现.
36+
- 分开估计 $\\{\lambda_j,\xi_j\\}$ 和 $\beta_j$.给定前者,后者的估计是简单的最小二乘问题.通常单独用 $X$ 的分布,以非监督的方式选择核参数 $\lambda_j$ 和 $\xi_j$.其中一种方式是对训练 $x_i$ 拟合高斯混合密度模型,这样可以得到中心 $\xi_j$ 和缩放 $\lambda_j$.其它更**特定的 (ad-hoc)** 方式是使用聚类方法来确定原型 $\xi_j$,并且将 $\lambda_j=\lambda$ 看成是超参数.这些方式的显然缺点是条件分布 $\Pr(Y\mid X)$ 以及 $\E(Y\mid X)$ 在决定“主要作用集中在哪儿 (where the action is concentrated)” 时没有任何发言权.不过它们的优点是,可以更简单地实现.
3737

3838
!!! note "weiya 注:"
3939
因为这些方式只用到 $X$ 的信息来决定 $\lambda_j$ 和 $\xi_j$,所以最后说它们的缺点是没有用到 $Y$ 的信息。

docs/06-Kernel-Smoothing-Methods/6.9-Computational-Consoderations.md

Lines changed: 2 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -4,11 +4,9 @@
44
| ---- | ---------------------------------------- |
55
| 翻译 | szcf-weiya |
66
| 发布 | 2017-12-29 |
7-
| 更新 | 2020-03-19 12:10:40|
8-
| 状态 | Done|
7+
| 更新 | {{ git_revision_date }} |
98

10-
11-
核和局部回归以及密度估计都是 **基于内存的 (memory-based)** 方法:模型是整个训练数据集,并且在赋值或者预测的时候完成拟合.对于许多实时的应用,这使得这类方法不可行.
9+
核和局部回归以及密度估计都是 **基于记忆的 (memory-based)** 方法:模型是整个训练数据集,并且在赋值或者预测的时候完成拟合.对于许多实时的应用,这使得这类方法不可行.
1210

1311
在单个观测点 $x_0$ 处拟合的计算代价为 $O(N)$ 次 flop,除了过于简单的情形(比如平方核).通过比较,包含 $M$ 个基函数的展开式一次赋值代价为 $O(M)$,一般有 $M\sim O(\log N)$.基函数方法至少有 $O(NM^2+M^3)$的初始代价.
1412

docs/07-Model-Assessment-and-Selection/7.12-Conditional-or-Expected-Test-Error.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -18,7 +18,7 @@
1818

1919
> 图 7.14. 从图 7.3 的右上图得到的 100 个模拟值的条件预测误差 $\Err_{\cal T}$,10 折交叉验证,以及舍一交叉验证的曲线.红色粗线为期望预测误差 $\Err$,而黑色粗线为期望 CV 曲线 $\E_{\cal T}CV_{10}$ 和 $\E_{\cal T}CV_N$.右下图显示了 CV 曲线与条件误差的绝对偏差的期望 $\E_{\cal T}\vert CV_k-\Err_{\cal T}\vert$,$K=10$(蓝色)以及 $K=N$(绿色),并且也显示了 CV 曲线与期望误差之间绝对偏差的期望 $\E_{\cal T}\vert CV_{10}-\Err\vert$(橘黄色).
2020
21-
对于图 7.3 中右上图的 “reg/linear” 的设定中产生的 100 个训练集中的每一个训练集,图 7.14 展示了条件误差 $\Err_{\cal T}$ 作为子集大小的函数图象(左上图).接下来两张图显示了 $10$ 折交叉验证和 $N$ 折交叉验证,后者也称作**舍一法 (LOO)**.每张图的红色粗线表示**期望(预测)误差** $\Err$,而黑色粗线表示**期望交叉验证**.右下图则显示了交叉验证近似**条件误差****期望误差**的程度.
21+
对于图 7.3 中右上图的 “reg/linear” 的设定中产生的 100 个训练集中的每一个训练集,图 7.14 展示了条件误差 $\Err_{\cal T}$ 作为子集大小的函数图象(左上图).接下来两张图显示了 $10$ 折交叉验证和 $N$ 折交叉验证,后者也称作**舍一法 (leave-one-out, LOO)**.每张图的红色粗线表示**期望(预测)误差** $\Err$,而黑色粗线表示**期望交叉验证**.右下图则显示了交叉验证近似**条件误差****期望误差**的程度.
2222

2323
可能会认为 $N$ 折交叉验证能很好地近似 $\Err_{\cal T}$,因为它几乎用了整个训练样本来拟合新的测试点.另一方面,可能会期望 $10$ 折交叉验证会很好地估计 $\Err$,因为它平均了不同的训练集.从图中看到估计 $\Err_{\cal T}$ 时 $10$ 折交叉验证比 $N$ 折做得更好,对 $\Err$ 的估计甚至更好.确实如此,两条黑色曲线与红色曲线的相似性表明两个 CV 曲线对 $\Err$ 近似无偏,且 $10$ 折有更小的方差.类似的趋势由 Efron (1983)[^1] 给出.
2424

docs/07-Model-Assessment-and-Selection/7.2-Bias-Variance-and-Model-Complexity.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -130,4 +130,4 @@ $$
130130

131131
本章的方法有两类,第一类通过分析的手段 (AIC,BIC,MDL,SRM),第二类通过有效的样本重利用(交叉验证和自助法)来近似验证过程(验证过程即比较候选模型选出最优的模型).除了在模型选择使用它们,我们也检验了每个方法对最终选择的模型的测试误差的估计的可靠性程度.
132132

133-
在讨论这些之前,我们首先进一步探究测试误差的本质与 **偏差-方差之间的权衡 (the bias-variance tradeoff)**
133+
在讨论这些之前,我们首先进一步探究测试误差的本质与 **偏差-方差之间的权衡 (bias-variance tradeoff)**

0 commit comments

Comments
 (0)