Skip to content

Commit 2d5c4b5

Browse files
committed
更新README.md文件
1 parent 2abc61c commit 2d5c4b5

File tree

4 files changed

+62
-60
lines changed

4 files changed

+62
-60
lines changed

Day66-80/78.方差分析.md Day66-80/78.方差分析和参数估计.md

+33-6
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,8 @@
1-
## 方差分析
1+
## 方差分析和参数估计
22

3-
### 基本概念
3+
### 方差分析
4+
5+
#### 基本概念
46

57
在产品运营中,我们会遇到各种需要评估运营效果的场景,包括促活的活动是否起到作用、A/B 测试的策略有无成效等等。具体例如,产品升级前的平均 DAU 是 155 万,产品升级后的平均 DAU 是 157 万,那么如何判断 DAU 提升的 2 万是正常的波动,还是升级带来的效果呢?对比同一组数据在实施某些策略前后的数据变化,判断数据波动是不是某一因素导致的,这种方法我们称之为方差分析。方差分析通常缩写为 ANOVA(Analysis of Variance),也叫“F 检验”,用于两个及两个以上分组样本的差异性检验。简单的说,**分析差异的显著性是否明显的方法就是方差分析**
68

@@ -28,7 +30,7 @@
2830

2931
综上所述,如果上面三个分组的用户购买率平均值不在中线(整体购买率)左右,而是有明显的偏高或偏低,并且该组内的每个转化率都紧紧围绕在该组购买率平均值的附近(即组内方差很小)。那么我们就可以断定:该组的购买率与整体不一致,是该组对应优惠金额的影响造成的。
3032

31-
### 定量分析
33+
#### 定量分析
3234

3335
如果要进行定量分析,可以使用 F 检验值和 F crit 临界值这两个指标。F 检验值用来精确表达这几组差异大小的,F crit临界值是一个判断基线:
3436

@@ -41,7 +43,7 @@
4143
4244
上图是用 Excel 得出的 A、B、C 三组的方差分析结果,如图所示 F < F crit,所以从定量分析角度,可以判定优惠金额不会对购买率产生影响。
4345

44-
### 实施方法
46+
#### 实施方法
4547

4648
实施方差分析可以分为以下三步走:
4749

@@ -66,15 +68,15 @@
6668

6769
> **练习**:打开“方差分析练习.xlsx”文件,完成练习1。
6870
69-
### 多因素方差分析
71+
#### 多因素方差分析
7072

7173
上面的案例是针对一种策略来分析效果。我们把这种形式的方差分析叫作单因素方差分析,实际工作中,我们可能需要研究多种策略(例如运营中的渠道、活动、客群等)对结果的影响,我们称之为多因素方差分析。例如我们会在多个运营渠道上安排多种运营活动,评价各个渠道的转化率。此时,影响转化率的因素有渠道和活动两个因素,我们可以使用“无重复双因素方差分析”来检查数据。
7274

7375
<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714125251.png" width="75%">
7476

7577
<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714130853.png" width="75%">
7678

77-
### 应用场景
79+
#### 应用场景
7880

7981
工作中遇到以下两类场景就可以使用方差分析:
8082

@@ -83,3 +85,28 @@
8385

8486
<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714131318.png" width="85%">
8587

88+
### 参数估计
89+
90+
在产品运营的工作中,数据分析常会遭遇诸多非常让人困扰的情况,例如:产品运营面对的数据量动辄百万级、千万级,带来的就是分析速度急剧下降,跑个数等一两天时间已经是很理想情况;另外,在很多场景下,我们都只能拿到部分数据(样本),而无法获取全量数据(总体)。在这种情况下我们就必须通过分析非常小量样本的特征,再用这些特征去评估海量总体数据的特征,可以称之为**样本检验**
91+
92+
**推断型统计的核心就是用样本推测总体**。在实际生产环境中,可能无法获得所有的数据,或者即便获取了所有的数据,但是没有足够的资源来分析所有的数据,在这种情况下,我们都需要用非常小量的样本特征去评估总体数据的特征,这其中的一项工作就是参数估计。
93+
94+
参数估计应用的场景非常的多,例如:
95+
96+
1. 在产品侧,我们可以用参数估计的方式评估A/B测试的效果。
97+
2. 在运营侧,我们可以用参数估计的方式优化活动配置和推荐策略。
98+
3. 在市场侧,我们可以用参数估计的方式制定广告投放策略。
99+
100+
#### 实施步骤
101+
102+
1. 确定分析的置信水平
103+
104+
2. 确定估计的参数类型
105+
106+
3. 计算参数估计的区间
107+
108+
- 数值型指标:$ A = z \times 样本标准差 / \sqrt{样本数量} $,其中 $ z $ 的值可以通过查表得到,如果置信水平选择95%,那么 $ z $ 的值就是1.96。大部分运营指标都是数值型指标,例如DAU、ARPU、转化率等。
109+
- 占比型指标:$ A = z \times \sqrt{占比 \times (1 - 占比) / 样本数量} $,$ z $ 值同上。占比型指标如性别占比、渠道占比、品类占比等。
110+
111+
最终得到的估计区间就是:$ [样本均值 - A, 样本均值 + A] $。
112+

Day66-80/79.参数估计.md

-25
This file was deleted.

Day66-80/79.聚类和降维.md

+2
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,2 @@
1+
### 聚类和降维
2+

README.md

+27-29
Original file line numberDiff line numberDiff line change
@@ -348,61 +348,59 @@ Python在以下领域都有用武之地。
348348
- JavaScript逆向工程
349349
- 使用Selenium获取动态内容
350350

351-
### Day66~70 - [数据分析](./Day66-70)
351+
### Day66~80 - [数据分析](./Day66-80)
352352

353-
#### Day66 - [数据分析概述](./Day66-70/66.数据分析概述.md)
353+
#### Day66 - [数据分析概述](./Day66-80/66.数据分析概述.md)
354354

355-
#### Day67 - [NumPy的应用](./Day66-70/67.NumPy的应用.md)
355+
#### Day67 - [环境准备](./Day66-80/67.环境准备.md)
356356

357-
#### Day68 - [Pandas的应用](./Day66-70/68.Pandas的应用.md)
357+
#### Day68 - [NumPy的应用-1](./Day66-80/68.NumPy的应用-1.md)
358358

359-
#### Day69 - [数据可视化](./Day66-70/69.数据可视化.md)
359+
#### Day69 - [NumPy的应用-2](./Day66-80/69.NumPy的应用-2.md)
360360

361-
#### Day70 - [数据分析项目实战](./Day66-70/70.数据分析项目实战.md)
361+
#### Day70 - [Pandas的应用-1](./Day66-80/70.Pandas的应用-1.md)
362362

363-
### Day71~85 - [机器学习和深度学习](./Day71-85)
363+
#### Day71 - [Pandas的应用-2](./Day66-80/71.Pandas的应用-2.md)
364364

365-
#### Day71 - [机器学习基础](./Day71-85/71.机器学习基础.md)
365+
#### Day72 - [Pandas的应用-3](./Day66-80/72.Pandas的应用-3.md)
366366

367-
#### Day72 - [k最近邻分类](./Day71-85/72.k最近邻分类.md)
367+
#### Day73 - [Pandas的应用-4](./Day66-80/73.Pandas的应用-4.md)
368368

369-
#### Day73 - [决策树](./Day71-85/73.决策树.md)
369+
#### Day74 - [Pandas的应用-5](./Day66-80/74.Pandas的应用-5.md)
370370

371-
#### Day74 - [贝叶斯分类](./Day71-85/74.贝叶斯分类.md)
371+
#### Day75 - [数据可视化](./Day66-80/75.数据可视化.md)
372372

373-
#### Day75 - [支持向量机](./Day71-85/75.支持向量机.md)
373+
#### Day76 - [概率基础](./Day66-80/76.概率基础.md)
374374

375-
#### Day76 - [K-均值聚类](./Day71-85/76.K-均值聚类.md)
375+
#### Day77 - [相关和回归](./Day66-80/77.相关和回归.md)
376376

377-
#### Day77 - [回归分析](./Day71-85/77.回归分析.md)
377+
#### Day78 - [方差分析和参数估计](./Day66-80/78.方差分析和参数估计.md)
378378

379-
#### Day78 - [深度学习入门](./Day71-85/78.深度学习入门.md)
379+
#### Day79 - [聚类和降维](./Day66-80/79.聚类和降维.md)
380380

381-
#### Day79 - [Tensorflow概述](./Day71-85/79.Tensorflow概述.md)
381+
#### Day80 - [数据分析方法论](./Day66-80/80.数据分析方法论.md)
382382

383-
#### Day80 - [Tensorflow实战](./Day71-85/79.Tensorflow实战.md)
383+
### Day81~90 - [机器学习和深度学习](./Day81-90)
384384

385-
#### Day81 - [Kaggle项目实战](./Day71-85/81.Kaggle项目实战.md)
385+
#### Day81 - [机器学习基础](./Day81-90/81.机器学习基础.md)
386386

387-
#### Day82 - [天池大数据项目实战](./Day71-85/82.天池大数据项目实战.md)
387+
#### Day82 - [k最近邻分类](./Day81-90/82.k最近邻分类.md)
388388

389-
#### Day83 - [推荐系统实战-1](./Day71-85/83.推荐系统实战-1.md)
389+
#### Day83 - [决策树](./Day81-90/83.决策树.md)
390390

391-
#### Day84 - [推荐系统实战-2](./Day71-85/84.推荐系统实战-2.md)
391+
#### Day84 - [贝叶斯分类](./Day81-90/84.贝叶斯分类.md)
392392

393-
#### Day85 - [推荐系统实战-3](./Day71-85/85.推荐系统实战-3.md)
393+
#### Day85 - [支持向量机](./Day81-90/85.支持向量机.md)
394394

395-
### Day86~90 - [大数据分析概述](./Day86-90)
395+
#### Day86 - [K-均值聚类](./Day81-90/86.K-均值聚类.md)
396396

397-
#### Day86 - [大数据概述](./Day86-90/86.大数据概述.md)
397+
#### Day87 - [回归分析](./Day81-90/87.回归分析.md)
398398

399-
#### Day87 - [Hive查询](./Day86-90/87.Hive查询.md)
399+
#### Day88 - [深度学习入门](./Day81-90/88.深度学习入门.md)
400400

401-
#### Day88 - [PySpark和离线数据处理](./Day86-90/87.PySpark和离线数据处理.md)
401+
#### Day89 - [Tensorflow概述](./Day81-90/89.Tensorflow概述.md)
402402

403-
#### Day89 - [Flink和流式数据处理](./Day86-90/89.Flink和流式数据处理.md)
404-
405-
#### Day90 - [大数据分析项目实战](./Day86-90/90.大数据分析项目实战.md)
403+
#### Day90 - [Tensorflow实战](./Day81-90/90.Tensorflow实战.md)
406404

407405
### Day91~100 - [团队项目开发](./Day91-100)
408406

0 commit comments

Comments
 (0)