forked from yufree/datadown
-
Notifications
You must be signed in to change notification settings - Fork 0
/
01-qianyan.Rmd
170 lines (132 loc) · 5.6 KB
/
01-qianyan.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
# 导论 {#intro}
## 数据科学
- 核心:数据处理
- 研究对象:实际问题(跨学科)
- 方法:统计学 计算机科学 专业领域
- 数据科学家:
- 统计学水平高的程序员
- 编程水平高的统计学家
- 学术好奇心
- 沟通交流能力
- 产品经理
- 数据次于问题
- 大数据依赖科学而不是数据
- 实验设计 重视可重复性随机与分组 预测与推断不同 不要选数据
## 基本问题
- 描述分析:对数据进行描述但不解释
- 探索分析:寻找未知的变量间关系 (相关不代表因果)
- 推断分析:用小样本推断总体 统计模型的目标 强依赖采样过程
- 预测分析:用一组变量预测另一变量 不一定有因果关系
- 因果分析:改变一个变量引发另一个变量变化的分析 随机实验 平均效果
- 机理分析:对个体改变一个变量所导致另一个变量的精确变化 公式模拟与参数拟合
## 工作流程
- 数据收集
- 数据整理
- 数据探索
- 数据建模
- 模型评价
- 结果交流
## 概率与分布
概率与分布是统计的基本世界观,当我们用概率来理解世界时,所有事物便不仅仅是此时此刻的事,而是可能性中的一种。这种全局观好比从上帝视角开启有限平行宇宙,即使你知道每种状态及其概率,最后结果也无法预判。
- 从可能性到独立事件概率计算
- 从联合概率到条件概率到贝叶斯公式
- 事件的发生空间到分布
- 多事件发生概率比较到标准化分布-z值
- 正态分布评价拟合
- 贝努利分布
- 二项分布,固定总数,成功概率,二项分布可用正态分布近似求值,也可用二项分布取精确值,求区间概率要扩大
- 负二项分布,固定成功次数概率
- 几何分布,最后一次成功概率
- 超几何分布,不放回抽样,成功概率
- 泊松分布,实验次数多,概率小,发生概率,泊松过程
## 统计量
统计量是对样本性质的一种描述或简化,用来提取设计者所关注的信号并尽可能排除掉噪音。
- 总体到样本
- 多个事件的描述到众数 中位数 再到期望
- 描述多个事件的变动到方差
- 取样方法:随机,分层,分类
- 样本独立性:简单随机取样,样本数少于10%的总体可认为独立样本
- 估计的偏差为标准误
- 点估计到区间估计
- 标准误只针对样本均值,理解为样本均值的估计标准差
- 置信区间为对所有样本进行区间估计,95%的区间包含真值,是对总体参数的估计,近似认为样本符合某分布
- 中心极限法则:样本均值的分布为正态分布
## 统计推断{#si}
统计推断基于构建的统计量来进行决策,这个决策过程涉及空假设、备择假设与p值。
- 假设检验
- 不拒绝H0不代表H0是对的,拒绝H0代表HA可能正确,观察数值的区间重叠状况
- 使用双重否定进行描述
- type I 假阳性 type II 假阴性
- 置信水平反映两种错误的可能性
- p值描述某数值在H0(一般为等式)中出现的可能性,通常与置信水平对比,两边与单边
- 构建符合某分布的统计量进行参数估计,通过标准误计算p值,进行假设检验过程
- 功效表示HA拒绝H0的可能性,功效高,检验可靠
- 统计差异显著不代表实际差异显著,甚至没有实际意义
- 均值比较(连续)
- 配对数据
- 均值比较
- t分布与自由度及小样本均值的标准误估计
- 置信区间与p值
- 样本均值的t检验
- 多组数据均值的方差分析与F检验
- 多重比较的假阳性问题
- 样本数足够可用统计模拟的方法进行检验,数据存在层级结构则不可直接模拟
- 比例比较(计数)
- 比例检验,计算基于H0的标准误,计算z值,计算p值,可反推样品量
- 比例差异检验,H0为比例相等,估计混合概率,计算标准误进行检验
- 记分检验与Wald检验
- 优度拟合
- 分布检验到卡方检验
- 独立性检验
- 精确检验
## 统计模型{#sm}
统计模型是基于统计量的对事物的抽象,借助模型可以简化事物的复杂性或从某个角度更好理解事物。
- 变量关系到线性回归到线性诊断
- 参数估计到关系解释及误差分析
- 多元回归
- 模型选择
- 方差分析
- 非线性模型与平滑
- logistic模型到广义线性模型
- 线性混合模型
- 主成分分析与因子分析
## 其他主题
- 非参数统计
- 贝叶斯统计
- 判别分析
- 岭回归与lasso
- 广义加性模型
- 鲁棒模型
- 决策树到随机森林
- 人工神经网络
- 支持向量机
- 蒙特卡洛分析到统计模拟
- 网络分析
- 因果分析
- 数据库
- 软件构架
- 服务器与前端设计
- 并行与分布式计算
- 容器化技术
- 博弈论
## 应用
- 工具
- 实验设计
- 模式识别
- 流行病学
- 生物信息学
- 化学信息学
- 心理学
- 空间数据分析
- 时间序列分析与信号处理
- 量化投资
- 自然语言处理
## 链接
- [统计问题](https://stats.stackexchange.com/)
- [R问题](http://stackoverflow.com/)
- [R mailling ist](http://www.r-project.org/mail.html)
- [数据分享](http://figshare.com/)
- [命令行数据科学](https://www.datascienceatthecommandline.com)
- [最流行的程序包](https://github.com/kaxap/arl)
- [数据科学资料合集](https://github.com/bulutyazilim/awesome-datascience)
- [peerj 实用数据分析技巧特刊](https://peerj.com/collections/50-practicaldatascistats/)