-
Notifications
You must be signed in to change notification settings - Fork 16
/
Copy pathstatistics_theory.theory.txt
1516 lines (1465 loc) · 106 KB
/
statistics_theory.theory.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
┏━━━━━━━━━━━━━━━━┓
┃ STATISTICS ┃
┗━━━━━━━━━━━━━━━━┛
Ma définition des statistiques :
- statistiques inférentielles/inductive :
-> étude de l'imprévisibilité
- science attribuant des probablités aussi fiables que possibles à des phénomènes qu'un individu ou groupe n'arrive pas à prédire
-> manière de rationaliser/chiffrer et rendre prévisible un monde vivant et aléatoire
-> par définition, jamais de 100% de chance, sinon pas besoin de statistiques
- statistiques descriptives/explanatory :
-> étude de la variabilité
- différentes valeures (i.e. étude de la différence entre les valeurs) que peut avoir une population pour un factor donné
POSITIVE/NEGATIVE ==> #"Condition positive|negative" (CP|CN):
# - number of positive|negative possible solutions
# - "prevalence": CP/(CP+CN)
#"Predicted condition positive|negative":
# - number of positive|negative results
# - can be:
# - "true positive" (TP)/"statistical power"
# - "true negative" (TN)
# - "false positive" (FP)/"type I error"/"false alarm"
# - "false negative" (FN)/"type II error"/"miss"
#Predicted condition:
# - % of positives|negatives results that are true|false
# - ratios:
# - "precision": TP/(TP+FP)
# - also called "positive predictive value" (PPV)
# - % of positives that are true
# - inverse: "false discovery rate" (FDR), FP/(TP+FP)
# - "negative predictive value" (NPV): TN/(TN+FN)
# - % of negatives that are true
# - inverse: "false omission rate" (FOR), FN/(TN+FN)
#True condition:
# - % of positive|negatives results among all possible solutions
# - ratios:
# - "sensitivy": TP/CP
# - % of positive results among all possible solutions
# - also called "recall"/"probability of detection"/
# "true positive rate" (TPR)/"statistical power"
# - inverse: "miss rate"/"false negative rate" (FNR)/"false alarm ratio" / β, FN/CP
# - "specificity": TN/CN
# - % of negative results among all possible solutions
# - also called "true negative rate" (TNR)
# - inverse: "fall-out"/"false positive rate" (FPR) / "significance level" / α, FP/CN
# - "positive likelihood ratio" (LR+): TPR/FPR, i.e. (TP*CN)/(FP*CP)
# - "negative likelihood ratio" (LR-): FNR/TNR, i.e. (FN*CN)/(TN*CP)
# - "diagnostic odds ratio" (DOR): LR+/LR-, i.e. (TP*TN)/(FP*FN)
# - "F₁ score": 2/(1/PPV + 1/TPR), i.e. combine PPV and TPR
Statistiques :
- inferentiale/inductive :
- utilise probablités
- plus par rapport à la sampling distribution du sample que la distribution du sample
- implique des conclusions et hypothèses
- exemples :
- statistical independence, conditional probablity
- souvent font une estimation, avec un interval de confidence
- descriptives :
- description d'une collection of data, de manière chiffrée ou visuelle (plots)
- plus par rapport à la distribution du sample que la sampling distribution du sample
- summary statistics :
- description synthétique
- types :
- location :
- measures of central tendency / "expectation":
- arithmetic mean : ∑xₙ / n, noté ̄x (ou μ pour une population)
- median :
- x tel que P(xₙ <= x) = 0.5
- si pair, prend la moyenne des deux éléments du milieu
- mode :
- x tel que P(P(xₙ) > P(x)) = 0
- most occuring value
- tail :
- least occuring region value de la distribution
- geometric mean :
- ₙ√ ∏S (taille n)
- utilisé à la place d'arithmetic mean pour comparer des sets avec des ranges différents mais pondérés pareil
- ex :
- set dont premier nombre est entre 0 et 1, et deuxième entre 0 et 100
- comparaison de tels sets, mais 1er et 2nd nombre doivent avoir même importance
- avec arithmetic mean, 1er aurait 100 fois d'importance
- harmonic mean :
- n / ∑ xₙ⁻¹
- weighted mean :
- par exemple notes avec coefficients
- mid-range :
- (max+min)/2
- rarement utilisé, très peu robuste ni fiable
- mid-hinge :
- (Q₃+Q₁)/2
- plus robuste que mid-range
- trimean (TM) :
- (Q₁+2*median+Q₃)/4
- Spread :
- [average/mean] [absolute] deviation :
- ( ∑sₙ∈ S dev(xₙ) ) / (n-1)
- où dev(xₙ) = |μ(xₙ) - f(X)|
- c'est la [non-average] absolute deviation
- f(x) mesure la central tendency. Peut être :
- mean -> deviation from the mean
- median -> deviation from the median
- mode -> deviation from the mode
- mean deviation <= standard deviation
- comme variance pour division par n
- attention [mean] [absolute] deviation from the median != median absolute deviation
- median absolute deviation (MAD) :
- comme mean deviation, sauf :
- qu'effectue une median, non une somme/mean
- utilise toujours mean comme dev()
- variance :
- ( ∑sₙ∈ S dev(xₙ)² ) / (n-1)
- où dev est la mean deviation
- division par n si S est la population entière :
- n s'approchant d'∞, /(n-1) ou /n ne fait plus de différence
- mais ̊σ² pour évaluer ̅σ² est un meilleur estimator si (n-1) que si n
- donc n-1 pour la sample variance, et n pour la population entière
- souvent noté σ²
- parfois noté s² si σ²₁, par opposition à ̅σ²
- σ²(X) = (μ(X²) - μ(X)²)*(n/(n-1))
= (∑X² - (∑X)²/n)/(n-1)
σ²(X)*n*(n-1) = n∑X² - (∑X)²
- standard deviation :
- √variance
- souvent noté σ
- moins utilise si fort skewness
- Chebyshev's inequality :
- P(dev(E(xₙ), μ) >= t) <= σ²/t²
- soit : si P a une variance x, alors la possibilité qu'un xₙ ait un écart à la moyenne d'au moins t est inférieur à x/t²
- autre formulation : P(dev(E(xₙ), μ) >= tσ ) <= 1/t²
- soit : la possibilité d'un écart d'au moins t fois la standard deviation est inférieur à 1/t² :
- écart >= 1.4σ : <= 50%
- écart >= 2σ : <= 25%
- écart >= 4σ : <= 6.25%
- coefficient of variation (CV)/united risk :
- σ/μ
- "pourcentage" de σ par rapport à moyenne -> "dimensionless" quantity (cad ratio,pourcentage)
- relative standard deviation (RSD) :
- |CV|
- index/coefficient of dispersion/variance-to-mean ratio(VMR) :
- σ²/μ
- relative variance :
- |VMR|
- Quartiles :
- valeurs séparant en quatre S
- IQR (InterQuartile Range) / H-spread : Range entre Q₁ et Q₃
- lower-hinge et upper-hinge : autre nom de Q₁ et Q₃
- Tukey's five numbers summary : { min, Q₁, Q², Q₃, max }
- quantile function / inverse distribution function :
- pour un pourcentage p "percentile" donné, donne la valeur x tel que p% des valeurs sont derrière x
- par exemple f(0.25) donne Q₁
- qdf = cdf⁻¹
- par ex., si cdf = x², qdf = √x
- Range :
- longueur du plus petit interval comprenant l'ensemble de S
- toujours >= 2σ
- Shape :
- skewness :
- asymetry d'une distribution
- si négatif tail est plus grande à gauche, sinon contraire
- median - mean ou mode - mean peut donner une idée
- kurtosis :
- peackness d'une distribution
- si low peak, fat tails
- type :
- mesokurtic : 0 (ex: normal distribution)
- leptokurtic : > 0 (ex: Cauchy, Student's t, Poisson, exponential)
- platykurtic : < 0
Standard score :
- si x ~ Dist(̅μ,̅σ), standard score(x) = (x - ̅μ)/̅σ
- si Dist() est N(), "z-score"
- t() : "T-score"
- χ²() : "Chi-score"
- F() : "F-score"
Comparaisons de deux Dist() :
- raisons :
- entre une Dist() de data et une théorique : D₁ vs D₀
- ex. voir si D₁ ~ N()
- ou entre deux Dist() de data : D₁ vs D₂
- PP Plot :
- soit cdf(D₁)~cdf(D₂)
- suit ligne y = x si cdf(D₁) = cdf(D₂)
- QQ Plot :
- soit quantile.f(D₁)~quantile.f(D₂)
- il est typique d'avoir les valeurs extrêmes moins sur la ligne
Probability simple (Bernoulli) :
- essai isolé :
- Chance de succès : p (en %, par exemple 0.5)
- Chance de non-succès : ~p, soit 1 - p
- n tentatives :
- Chance de que des succès : pⁿ
- Chance d'aucun succès : (~p)ⁿ
- Chance d'au moins un succès : ~((~p)ⁿ)
- Chance d'au moins un échec : ~(pⁿ)
- Chance de m succès/échecs parmi n : cf Binomial
Experiment :
- Probability space est un triplet (Ω,𝓕,P) :
- Sample space, noté S ou Ω, est ensemble des simple events possibles
- une random variable est une fonction qui assigne un outcome à chaque simple event : X: Ω -> S, où S est appelé "state
space"
- noté X, Y, ...
- peut être :
- discrète et infinie : notamment si S == N
- discrète et finie : notamment si S est factorial (subset de N)
- continue et infinie : notamment si S == R
- continue et finie : notamment si S est subset de R
- les simple events sont notés ωₙ
- plusieurs random variables peuvent assignées au même Ω
- Le σ-algebra 𝓕 comprend ensemble des events Eₙ possibles à partir des simples events
- events sont noté Eₙ ou A,B,C,...
- un Eₙ est une combinaison de simple events, 2^Ω
- 𝓕 \ E : complementary event de E, noté Ē
- Probability function, P :
- fonction assignant prob. à chaque Eₙ
- donc P: 𝓕 -> [0,1]
- si :
- continu: Probability density function, pdf
- discret:
- Probability mass function, pmf, ou frequency function
- si fini, Categorical distribution
- P(Ω) = 1
- ex., one-coin flip :
- Ω = {H,T}
𝓕 = 2^Ω = { ∅, {H}, {T}, {H,T} }
P(∅) = 0, P({H}) = 0.5, P({T}) = 0.5, P({H,T}) = 1
- représentation graphique :
- ex. pour deux random variables X et Y :
- X et Y sont axes x et z
- P() est axe y, assigne prob. aux variables X et Y
- chaque simple event (Ω) peut être représenté comme une zone sur le place (X,Y) comprenant les outcomes xₙ et yₙ
produits par ce simple event
- 𝓕 est ensemble des combinaisons de zones
- Probability space (et donc events et variables) est toujours "random", au sens statistique du terme :
- cad aucun P(Eₙ) = 1
- c'est-à-dire imprévisible de manière certaine par le sujet
- si 100% de chance, pas de probablité ni de statistiques sur ce phénomène.
Events probablities :
- P(𝓕) = 1, donc :
- 0 <= P(E) <= 1
- P(Ē) = 1 - P(E)
- si E₁ ⊆ E₂, alors P(E₁) <= P(E₂)
- Joint probablity :
- probablity qu'un résultat donné satisfasse à la fois E₁ et E₂
- noté E₁ ∩ E₂
- Conditional probablity :
- probablité, lors d'un event E₁, que celui-ci soit aussi un event E₂
- noté P(E₂|E₁), soit P(E₁ ∩ E₂) / P(E₁) (pour P(E₁) > 0)
- par conséquent (multiplication axiom) : P(E₁ ∩ E₂) = P(E₂|E₁) * P(E₁)
- Bayes' theorem : P(E₁|E₂) = P(E₂|E₁) * P(E₁) / P(E₂) (pour P(E₂) > 0)
- Law of total probability :
- Si E₁...Eₙ sont des events disjoints et que leur union est Ω
- alors P(A) = ∑ P(A|Eₙ) * P(Eₙ)
- Bayes' rule (raisonnement inverse) :
- P(Eₖ|A) = P(A|Eₖ) * P(Eₖ) / ∑ P(A|Eₙ)*P(Eₙ)
- P(E₁) + P(E₂) = P(E₁ ∪ E₂) + P(E₁ ∩ E₂)
- P(E₁ ∪ E₂) = P(E₁) + P(E₂) - P(E₁ ∩ E₂)
- si E₁ et E₂ disjoints, P(E₁) + P(E₂) = P(E₁ ∪ E₂)
- Statical independence :
- fait que si l'on sait qu'un résultat satisfait E₁, cela ne modifie pas chances que cela satisfasse E₂
- donc P(E₂|E₁) = P(E₂), soit "probablité de E₂ en sachant que E₁ intervient" = "probablité de E₂ sans savoir si E₁ intervient"
- est symétrique car implique aussi que P(E₁|E₂) = P(E₁)
- implique aussi que P(E₁ ∩ E₂) = P(E₁) * P(E₂) (définition à préférer)
- si :
- P(E₁ ∩ E₂) < P(E₁) * P(E₂), alors occurence d'E₁ ou E₂ diminue chance d'occurence de l'autre
- cad P(E₁|E₂) > P(E₁), et P(E₂|E₁) > P(E₂)
- inverse
- "iid" (idependant and identically distributed) variables :
- signifient des variates :
- statistically independent entre elles (génération d'une ne modifie pas prob. des autres)
- ayant la même distribution
- en général, PRNG, PRNS, et théorème statistiques supposent des iid. variables
- Multiple independence :
- indépendance d'un event par rapport à l'occurence non d'un event, mais de plusieurs events :
- P(E₀|E₁ ∩ E₂) = P(E₀)
- si un seul event, "pairwise independence"
- Si tous events sont pairwise independents, ne garantie pas les multiple independences
- mutual independence :
- si P(E₁ ∩ ... ∩ Eₙ) = P(E₁) * ... * P(Eₙ)
- ainsi que pour tout regroupement dans E₁...Eₙ
- donc pour chaque Eₙ, P(Eₙ|E... ∩ E...) = P(Eₙ)
- P(E₁) =, < ou > P(E₂) équivaut à P(E₁|E₂) =, < ou > P(E₂|E₁)
- cad : si probabilité de E₁ est faible et que E₂ est fort, il est plus courant pour un individu de E₁ de faire E₂, que
l'inverse.
Si probabilité identiques, aussi courant pour l'un que pour l'autre.
- Selection bias :
- considérer que P(E₁|E₂) = P(E₁), et oublier impact de condition E₂
- par exemple, personne ayant souvent E₁ car E₂ arrive souvent pour elle, et que P(E₁|E₂) est élevé, pourtant P(E₁) peut
etre faible de manière générale
- ex: demander assistance Linux : E₁ = 0.01%, avoir barbe de geek : E₂ = 5%, demander assistance Linux quand barbe de
geek : 20%. Donc personne avec barbe de geek pense que demander assistance Linux = 20%.
- autre fallacy :
- penser que P(E₁|E₂) = P(E₂|E₁)
- cela n'est vrai que si (et est vrai quand) P(E₁) = P(E₂) (cf dessus)
- ex: hard drug users smoke majiruana, so (wrong ->) marijuana use hard drug
- en effet marijuana population est bien plus grande que hard drug users
Causalité et correlation :
- hétérogénéité :
- plusieurs facteurs possibles : P(X|Y,Z), "confounding factors"
- il faut pouvoir les dissocier pour étudier P(X|Y)
- correlation : P(X|Y)/P(X), soit P(X ∩ Y)/(P(X)*P(Y))
- si correlation = 1, alors statistical independence
- causalité et bien plus compliquée, et implique plus que correlation
Joint probability distribution :
- comme une probability distribution normale, sauf que pour réunion de plusieurs random variables
- donc P(X ∩ Y) pour bivariate
- lié à un même Ω : s'il y a un xₙ, il y a aussi un yₙ
- appelé aussi multivariate distribution (bivariate si 2)
- graphiquement, un graph de points (xₙ,yₙ), avec éventuellement axe z nombre d'occurences
- par ex. graphiquement pour X et Y, P() en ordonnée, et X et Y autres axes
- ne pas confondre avec des P() combinant avec d'autres opérateurs que ∩ :
- ex. : P(X ∩ Y) != P(X + Y)
- P(X ∩ Y) dépend de P(X|Y) ou P(Y|X) :
- P(X ∩ Y) = P(X) * P(Y|X)
= P(Y) * P(X|Y)
- P(X ∩ Y ∩ Z) = P(X) * P(Y|X) * P(Z|Y,X) ("chain rule of probability")
- si X et Y indépendants (P(Y|X) = P(Y) et P(X|Y) = P(X)), alors P(X ∩ Y) = P(X) * P(Y)
- ∑P(X ∩ Y) = 1
- On peut penser à P(X ∩ Y) comme une matrice, avec X et Y comme dimensions, et P(X) et P(Y) des vecteurs
- si continu, appelé joint distribution fonction (jdf)
Conditional probability distribution :
- comme jdf, sauf que non P(X ∩ Y) mais P(Y|X)
- P(Y|X) n'est pas la même chose que P(X|Y)
- si P(Y|X) = X, alors X et Y indépendants
- graphiquement, axe x ne modifie pas axe y,z
- P(Y|X) = P(X ∩ Y) / P(X)
- si continu, appelé conditional distribution fonction
Terminology :
- data/outcomes :
- ensemble des données récoltées sur un sample space
- Parameter :
- une statistique est déduite d'un sample space à partir de data, un parameter d'une population
- une statistique estime un parameter, de manière plus ou moins fiable
Randomness :
- variable désigne le x d'un graph (abscisse), pas seulement un event donné
- contrairement à une variable classique, qui prend une valeur f(x) donné pour une x donné
- une random/schochastic variable a un ensemble de f(x) avec chacun une P(f(x))
- une random variable est donc toute variable associée à une probability distribution
- donc, pour qu'un variable soit random, il faut juste qu'il n'y ait aucun P() == 1
- c'est pourquoi on peut par exemple parler de "Cauchy random variable", etc.
- une random variable X ayant une pdf f() est notée X ~ f()
- difference entre entropy et distribution
- les P() de chaque xₙ peuvent différer : une distribution n'est pas forcément uniforme
- ex : lancer de deux dés est random, mais n'a pas une distribution uniforme
- différence :
- distribution est l'axe y, la P()
- entropy est l'axe x, le fait qu'il y ait plusieurs xₙ randomly possibles
- random variate :
- particular outcome x d'une random variable X, généré suivant la probability distribution
- génération est appelé PRNS (pseudo-random number sampling)
- contrairement à PRNG, est soumis à une probability distribution pas forcément uniforme
- peut être généré via l'inverse distribution avec comme argument U(0,1) :
- ex : rnorm(n) -> qnorm(runif(n))
- mais il existe des méthodes plus efficientes implémentées peut-être par rnorm, etc.
- différence entre résultat d'une experiment passé et prévision :
- relative frequency vs probabilité
- "observed values" vs random variates
- discret vs discret ou continu
- cependant peut utiliser même raisonnement
Philosophie de randomness :
- vues :
- Bayesian/classical (Bayes/Laplace/Bernoulli, XVIIème) :
- experiment cherche à prouver une prob. théorique
- probabilité d'1/n est lorsque n différents mutually exclusive outcomes d'une experiment sont possibles, et que aucun
n'est plus favorisé que l'autre (principe d'indifférence)
- pb : ne marche que pour variable avec une prob. distr. uniforme
- types :
- objectiviste/physical:
- unpredictable est subjectif, random objectif
- probabilité est une tendance réelle
- subjectiviste/evidential:
- random est l'absence de connaissance
- probabilité est une confiance subjective donnée
- fréquentistes (Neyman/Pearson/Venn/Fischer):
- experiment cherche à déterminer une prob. inconnue
- probability est limit (n=∞) de la fréquence relative
- propensistes (Popper/Miller)
- chaotic vs quantique :
- vue non-déterministe :
- quantique est random
- système chaotique est déterministe, mais affecté par un nombre énorme de petits facteurs (butterfly effect), qu'il est
infeasible pour un être humain de connaître
- vue déterministe :
- pareil pour chaos
- mais quantique est aussi chaotique, seulement nous ignorons les causes pour l'état actuel des sciences
Expected values :
- expected value/mean, E(E₁) ou X(E₁) :
- si simple event, outcome de X lorsque E₁
- sinon, pondéré ensemble des simple events comprenant E₁ par leur probabilité :
- E(E₁) = (∑Eₙ∈ E₁ E(Eₙ) * P(Eₙ) ) / P(E₁)
- pour l'ensemble de 𝓕 :
- E(X) = ∑x∈ R x*P(X = x)
Distribution :
- pdf, cf plus haut
- cumulative distribution function (cdf) :
- non chance que x = xₙ, mais que x >= xₙ
- il s'agit donc de ∫ de la distribution
- types :
- discrete, continue ou mix entre disrete et continuous distribution :
- par ex., si pile, E(X) = 1, si face, E(X) = random entre 0 et 1
Robustness :
- outliers :
- xₙ étant très éloignée du reste des xₙ
- doivent être écartés car fausse statistiques
- cause :
- erreur de mesure
- distribution "heavy-tailed"
- statistiques les éloignant sont dites "robust"/resistant :
- breakdown point :
- nombre de xₙ outliers pouvant être présents sans fausser calcul
- maximum 0.5
- mean a breakdown point de 0, median 0.5 => median est bien plus robuste
- median absolute deviation plus robuste que standard deviation
- range a breakdown point de 0, IQR 0.25
- standard deviation est pas robuste, expected median variation si
- truncated mean :
- discard une part du sample avant de faire le mean
- souvent un même pourcentage sur la tail basse et haute
- interquartile mean (IQM) : ne garde que l'IQR
- ensuite, il faut remultiplier par 1 / pourcentage perdu
- ex : par 2 pour l'IQM
- conflit entre :
- + precision, mais - signifiance :
- si pas assez robuste, résultats faux
- mais si trop d'outliers, résultat proche de la normalité pour le phénomène, et pas de prédiction particulière
- + precision, mais - accuracy :
- estimator robuste vs estimator optimal
Plots :
- point plot :
- pour indiquer valeur discrète d'un factor donné
- bar plot :
- pour indiquer quantité/compte d'un factor donné
- histogramme :
- comme bar plot, mais en utilisant non des valeurs discrètes mais des ranges (pour valeurs real, ou un grand nombre de
valeurs discrètes)
- box plot :
- centre est Q₁-median-Q₃
- extrémités (appelée "whiskers") peut être :
- minimum et maximum, dans le range :
- tout
- [Q₁-1.5*IQR, Q₃+1.5*IQR]
- 1.5*IQR = 2σ pour Normal, soit range de 95% des résultats
- [Q₁-σ, Q₃+σ]
- premier et dernier décile
- parfois outliers (events en dehors des extrémités) sont indiqués par des points
Pondération pour random variable :
- il faut :
- pondérer chaque Eₙ par P(Eₙ) (les E plus probables ont plus de poids)
- le tout divisé par ∑ P(Eₙ) si pmf et ∫ P(Eₙ) si pdf (si sur tout S, alors division par 1)
- ne pas diviser par nombre d'events (déjà mis en moyenne par multiplication par P(Eₙ))
- ex : σ² = ∑/∫ dev(Eₙ)² * P(Eₙ)
pdf et pmf :
- P(xₙ) :
- Pour une pmf, probabilité de xₙ
- Pour une pdf, P(xₙ) est la densité, non la probabilité. Ne signifie pas probabilité de xₙ (toujour infinitésimale)
- signifie : densité moyenne sur 1 unité x = probabilité de cet unité, densité sur 1/2 unité = prob.unité*2, etc.
- conséquence :
- permet de faire intégrale pour cdf
- la densité P(x) dépend de range de x, de sorte que ∫ P(X) == 1
- e.g., P(x) de U(0,2) est 0.5 et U(0,4) est 0.25
- peut comparer pdf et pmf, si on prend que valeur discrète de pdf
- ex: pdf de N(np,np(1-p)) approxime B(n,p)
- pour une cdf et cmf, il faut rajouter 0.5 à la valeur discrète de la cdf ("continuity correction"), car sinon
dernière valeur ne prend pas l'unité entière autour d'elle mais que la moitié.
- probabilité cumulée Pc(xₙ) :
- Pour une pmf, ∑min(S),xₙ P()
- Pour une pdf, ∫min(S),xₙ P()
- P(Eₙ)
- Pc(max(Eₙ)) - Pc(min(Eₙ))
Erreur lors d'inférence :
- 2 stats correlées n'implique pas relation de causalité.
- études fondées à des fins commerciales
- manière incorrecte de présenter graphs ou data de manière à appuyer un discours
- "confounding" : difficulté de séparer facteurs les uns des autres
Measures :
- variables sont ce qui est mesuré dans le sample
- types :
- quantitatif/numeric
- discrète (integral)
- continue (real)
- qualitatif/factor/category
- on manipule alors leur nombre d'occurences/frequency
- un individu d'un sample est un "sujet"
- un ensemble de data pour un ensemble de variables sur un sujet est une "observation"
- accurate vs precise :
- accuracy :
- différence entre valeur estimée et valeur réelle
- graphiquement, différence entre "centre" de la pdf de l'estimation et valeur réelle
- precision :
- différence entre valeurs estimées sur plusieurs experiments identiques
- aussi appelé degré de reproductibility(instruments différents)/répétabilité(mêmes instruments)
- graphiquement, étendue de SampleMean
- également tiers : measurement resolution
- différence minimale entre deux estimation
Distributions :
- parameters :
- types :
- shape : change la shape
- scale : change le spread
- rate : change le spread, de manière inverse (1/scale)
- location : change la mean
- notations :
- Distribution(Var...)
- X ~ Distribution(Var...) signifie random variable X ayant une distribution Distribution
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Distribution | Binomial | Poisson | Uniform cont.| Exponential| Neg.Binomial | Normal/Gaussian/Z |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Type | Discrète | Discrète | Continue | Continue | Discrète | Continue |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Aspect | Bell-curve | Bell-curve | Rectangle | Descend | Comme B() | Bell-curve |
| | sauf n ou p | Ecrasé à gauche | | rapidement | | |
| | petit. | si λ faible. | | puis longue| | |
| | | A droite tail ∞ | | tail | | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Notation | B(n,p) | Pois(λ) | U(a,b) | | NB(r,p) | N(μ,σ²) |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Paramètres | n: nb essais | λ: mean | a: min | λ: exp rate| r: nb de suc.| μ: mean |
| | p: % de succès| (n:[0,∞],p:[0,1]) | b: max | | p: % échecs | σ² |
| | | | | | | Standard normal : N(0,1) |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| x | nb de succès | nb de succès | | Temps | nb d'échecs | |
| | (essais sont | | | | avant que r | |
| | indépendants)| | | | succès arriv | |
| | | | | | (essais sont | |
| | | | | | indépendants)| |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| range | [0,n] | [0,∞] | [a,b] | [0,∞] | [0,∞] | R |
| mean | n*p | λ | (a+b)/2 | 1/λ | p*r/(1-p) | μ |
| median | ⎣n*p⎦ | ⎣λ + 1/3 - 1/50λ⎦ | (a+b)/2 | ln(2)/λ | | μ |
| variance | np(1-p) | λ | (b-a)²/12 | 1/λ² | p*r/(1-p)² | σ² |
| mode | | | a | | | μ |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| P(x) | (n) * p^x | λ^x / x! / ℮^λ | 1/(b-a) | λ℮^(-λx) | (x+r-1) * | Gaussian function: |
| (density f())| (x) | | si x∈ [a,b] | (P(0) = λ) | ( x ) | ℮^(-(x-μ)²/2σ²) / σ√(2π) |
| | * (1-p)^(n-x) | ℮^λ et λ sont des | 0 sinon | | (1-p)^r * p^x| ou ϕ((x-μ)/σ)/σ |
| | | scaling factor. | | λ sont des | | Standard normal ϕ/φ: |
| | | L'essence est | | scaling | | ℮^(-x²/2) / √(2π) |
| | | dans ℮^x/x! | | factor. | | Explication : |
| | | | | Essence est| | n^-x² : bell curve autour |
| | | | | dans ℮^-x | | de [-2,2] |
| | | | | | | /2 : ramène à [-1,1] |
| | | | | | | /√2π,℮: pour que ∫P() = 1 |
| | | | | | | x-μ : ramène à [μ-1,μ+1] |
| | | | | | | σ : ramène à [μ-σ,μ+σ] |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Pc(x) | | | (x-a)/(b-a) | 1 - ℮^(-λx)| | |
| | | | si x∈ [a,b] | | | |
| | | | 0 si x < a | | | |
| | | | 1 si x > b | | | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Examples | Pile ou face | Nb d'évén. sur une | Tout nombre | Temps entre| Nb de pile | ̊μ pour toute ̅s (si σ finite).|
| | successifs | période donnée, où:| entre a et b | 2 Pois(λ) | avant de | Donc dist. de beaucoup de |
| | (p = 0.5) | - p et n sont | avec chances | events ou | faire r faces| measurements. |
| | Oui ou non à | inconnus, n | égales, | entre 1 | | Permet également d'approximer|
| | un sondage | très grand, et | continu. | instant et | | autre distributions. |
| | | p très faible | | 1 Pois(λ) | | |
| | | - mais average | | event. | | |
| | | rate λ connu | | Temps entre| | |
| | | Equivaut à | | deux coups | | |
| | | B(n,λ/p) dans ces | | de tel. | | |
| | | conditions. | | Période | | |
| | | Coups de tel. sur | | fonctionmt | | |
| | | période donnée. | | d'une mach.| | |
| | | Photons arrivant | | Ex: si | | |
| | | sur un télescope. | | 8 appels/h,| | |
| | | Voitures feu rouge.| | prochain | | |
| | | Queue de clients. | | appel prob.| | |
| | | Nb buts au foot. | | == P(8) | | |
| | | | | heures | | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| R functions | *binom | *pois | *unif | *exp | *nbinom | *norm |
| | | | | | *geom (infra)| |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Autre | B(1,p) est | Cf plus bas, | U(0,1)ⁿ |Geom(λ/(λ+1)| Si r∈ N, | |
| | appelé | poisson process. | = Be(1/n,1) | est la | appelée | |
| | Bernoulli dst.| | pour n>0 | version |"Pascal dist."| |
| | dont un event | | | discrète de|Sinon "Polya | |
| | est un | | | Exp(λ) | dist." | |
| |Bernoulli trial| | | | | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Autre (suite)| Attention, | | |U(a,b) - | Memoryless:| Alternative: | |
| | pour avoir % | | U(a,b)| ~ | Exp(x+a)/ | nb d'essais, | |
| | d'occurences | |Trian(0,b-a,0)| Exp(x) = | non d'échecs.| |
| | et non nb, | | μ(U(a,b)+ | Exp(y+a)/ | Ajouter alors| |
| | utiliser | | U(a,b)) ~ | Exp(y) pour| r au résultat| |
| | B(n,p)/n, ce | |Trian(a,b, | tout x,y,a.| | |
| | qui est difer.| | (b+a)/2) | Donc mêmes | | |
| | B(1,p), mais a| | |courbes pour| | |
| | mêmes σ et μ | | |tout [x,x+a]| | |
| | | | |Décroissance| | |
| | | | |rate toujour| | |
| | | | |même donc. | | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Autre (suite)|B(1,p) + ... + | | |Décroissance| Geometric(p) | |
| |B(1,p) = B(n,p)| | |rate entre | == NB(1,p). | |
| |si indépendants| | |x et x+1 | A une allure | |
| | | | |pour pdf ou | exponentielle| |
| | | | |cdf est | | |
| | | | | ℮^-λ | | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
| Autre (suite)| Bernoulli | | | Si X et Y | NB(1,p) + ...| |
| | process = | | | ~ Exp(), | + NB(1,p) | |
| | suite de | | | X/(X+Y) | = NB(r,p) si | |
| | Bern. trials. | | | ~ U(0,1) | indépendants | |
+--------------+---------------+--------------------+--------------+------------+--------------+------------------------------+
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Distribution | Uniform di.| Student's t | Chi-squared | F | Hypergéométrique |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Type | Discrete | Continue | Continue | Continue | Discrète |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Aspect | Bar plot | Comme N(0,1) | Si n faible, | Gamma-form | Comme B() |
| | avec pas de| plus plat. | exponenti., | | |
| | 1 et même | + df, + proche | + df, + proche | | |
| | hauteur | de N(0,1) | de N(0,1) | | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Notation | | t(df) | χ²(df) | F(df) | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Paramètres | a: min | df: degrés of | df: degrés of | df1 et df2: | m: subpop. du groupe |
| | b: max | freedom, soit| freedom | degrés of | n: subpop. du non-groupe |
| | | n-1 (n > 1) | | freedom | k: taille du sample |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Note perso | n: b-a+1 | Similair à N(0,1)| Similaire à N(0,1)| | Similaire à B(k,m/N) |
| | | pour n > 30 | pour n > 30 | | pour k/N petit |
| | | | | | Soit N = m+n |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| x | | | ∑ de df variates | μ(df1 variates ~ N(0,1)²)| Prob. que x individus du |
| | | | suivant N(0,1)² |/μ(df2 variates ~ N(0,1)²)| groupe soient tirés sur un |
| | | | | | sample de taille k |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| range | [a,b] | [-∞,∞] | | | [max(0,k-n),min(m,k)] |
| mean | (a+b)/2 | 0 | df | df2/(df2-2) | k*m/N |
| | | | | undef. si df2 < 2 | |
| median | (a+b)/2 | 0 | | | |
| variance | (n²-1)/12 | df/(df-2) | 2*df | 2*df2²*(df1+df2-2) | kmn/N² * (N-k)/(N-1) |
| | | undef. si df < 2 | | /(df1*(df2-2)²*(df2-4)) | |
| | | | | pour df2 > 4 | |
| mode | Chacune | 0 | df-2 (0 si df<2) | | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| P(x) | 0 si: | | | | (m) * ( n ) / (N) |
| (density f())| x pas int.| | | | (x) (k-x) (k) |
| | x < a | | | | |
| | ou x > b | | | | |
| | sinon 1/n | | | | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Pc(x) | 0 si x < a | | | | |
| | 1 si x > b | | | | |
| | sinon: | | | | |
| | (⎣x⎦-a+1)/n| | | | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Examples | Chances |̊μ*√n si ̅σ inconnu,|σ₁/̊σ*(n-1) si ̅σ | Equivaut à | Test de proportion avec un |
| | égales, |que ̅s suit N(0,1).|inconnu, et que | (df1/χ²(df1)) | sample sans remplacement |
| | entre a et | | ̅s ~ N() | /(df2/χ²(df2)) | |
| | b, entier. | | | Utilisé pour | |
| | Roulette. | | | comparer deux | |
| | Dé. | | | σₙ (F-test) | |
| | | | | Distribution de | |
| | | | | (σ²₁/σ²₂) / | |
| | | | | (̅σ²₁/̅σ²₂), pour df1 | |
| | | | | == n₁-1, et df2 == n₂-1 | |
| | | | | F(1,df2) = t(df2)^2 | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| R functions | *unifd | *t | *chisq | *f | *hyper |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
| Autre | | t(df) = N(0,1)/ | χ²(2) = Exp(1/2) | | |
| | | √(χ²(df)/df) | χ²(2n) | | |
| | | | = Gamma(n,1/2)| | |
+--------------+------------+------------------+-------------------+--------------------------+-------------------------------+
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Distribution | Gamma | Beta | Triangular | Cauchy | Weibull |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Type | Continue | Continue | Continue | Continue | Continue |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Aspect | Exp. si k ou α faible | α&β>1: bell | Triangle | Bell | Gamma-like |
| | Bell sinon | α&β=1: U(0,1) | | | |
| | | α&β<1: inverse-bell| | | |
| | | α>1&β<1: curve | | | |
| | | croissante| | | |
| | | α<1&β>1: decroisnte| | | |
| | | Si α>β, penche | | | |
| | | vers droite, | | | |
| | | sinon inverse. | | | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Notation | | Be(α,β) | | | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Paramètres | α: shape | α: shape du 1er | a: min | x₀: median | k: shape |
| | β/λ: rate | β: shape du 2ème | c: mode | ϒ: scale | λ: scale |
| | ou | | b: max | | |
| | k: comme α | | | Standard: | |
| | θ: comme 1/β (scale) | | | (0,1) | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Note perso | Converge vers N() pour| | | | Comme ₖ√Exp(), avec |
| | un grand k | | | | scale adjustement. |
| | | | | | Donc contrairement à Exp() |
| | | | | | decreate rate augmente |
| | | | | | (k>1) ou decrease (k<1) |
| | | | | | constamment |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| x | Si α∈ N, somme de α | Si X ~ Gamma(α,λ) | | | |
| | iid. Exp. variables | et Y ~ Gamma(β,λ) | | | |
| | | alors X/(X+Y) | | | |
| | | ~ Beta(α,β) | | | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| range | [0,∞) | [0,1] | [a,b] | (-∞,+∞) | [0,∞) |
| mean | α/β | α/(α+β) | (a+b+c)/3 | Aucune | λ*Γ(1+1/k) |
| median | | αβ/(α+β)²/(α+β+1) | Dist. au point | x₀ | λ*ₖ√(ln(2)) |
| | | | a ou b le plus | | |
| | | | proche: | | |
| | | | √((b-a)(c-a)/2)) | | |
| mode | (α-1)/β, pour α>=1 | (α-1)/(α+β-2), pour| c | x₀ | λ*ₖ√((k-1)/k) |
| | | α>1 et β>1 | | | (0 si k <= 1) |
| variance | α/β² | | (a²+b²+c²-ab | Aucune | λ²*Γ(1+2/k) - μ² |
| | | | -ac-bc)/18 | | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| P(x) | β^α/Γ(α) * x^(α-1) | x^(α-1)/B(α,β) | 0 si hors range | 1 / (πϒ * | k/λ*(x/λ)^(k-1) |
| (density f())| / ℮^(βx) | * (1-x)^(β-1) | Si x <= c, |(1+((x-x₀)/ϒ)²))| / ℮^((x/λ)^k) |
| | | | 2(x-a)/(b-a)/(c-a)| | |
| | | | Sinon, | | |
| | | | 2(b-x)/(b-a)/(b-c)| | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Pc(x) | | | 0 ou 1 si hors | | 1-℮^(-(x/λ)^k) |
| | | | range. Si x <= c, | | |
| | | | | | |
| | | | (x-a)²/(b-a)/(c-a)| | |
| | | | Sinon, 1 - ((b-x)²| | |
| | | | / (b-a) / (b-c) | | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Examples | | | | | Espérance de vie, car |
| | | | | | mort plus likely plus |
| | | | | | x est grand. |
| | | | | | Taux de défection produit. |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| R functions | *gamma | *beta | *trngl | *cauchy | *weibull |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
| Autre | Si α∈ N, appelé | 1-Be(α,β) = Be(β,α)| | N(0,a)/N(0,b) | Weibull(k,λ) = |
| | "Erlang dist." | | | = Cauchy(0,a/b)| ₖ√Exp(λ^-k) |
| | avec paramètres | | | |Donc Weibull(k,1) = ₖ√Exp(1)|
| | α,β -> k,λ. | | | Cauchy(0,1) = | et Weibull(1,λ) = Exp(1/λ) |
| | Gamma(1,β) = Exp(β) | | | t(1) | |
| | Analogue continue de | | | | |
| | NB() | | | ̊μ(Cauchy(a,b) =| |
| | | | | Cauchy(a,b), | |
| | | | | non CLT. | |
+--------------+-----------------------+--------------------+-------------------+----------------+----------------------------+
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Distribution | Log-normal | (Fisher's) noncentral |
| | | hypergeometric |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Type | Continue | Discrète |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Aspect | Bell penchée | Comme hypergeometric |
| | vers gauche | mais tirée vers |
| | | gauche ou droite |
| | | selon ω |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Notation | lnN(μ,σ²) | |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Paramètres | μ: log.mean | m,n,k: comme hypergeom. |
| | σ²: log.var | ω: odds ratio, soit ω₁/ω₂ |
| | | ωₙ est la prob. de tirer |
| | | un individu de ce groupe |
| | | (en dehors de sa prop. |
| | | m ou n) |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Note perso | ℮^N(μ,σ²) | Si ω=1, égal à hypergeom. |
| | | Soit N = m+n |
| | | xmin = max(0,k-n) |
| | | xmax = min(k,m) |
| | | Pₑ = ∑xmin,xmax (m)*( n ) |
| | | (i) (k-i) |
| | | * ω^i * i^e |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| x | | Nb d'individus du groupe |
| | | 1 sur un sample de taille k |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| range | (0,∞) | [xmin,xmax] |
| mean | ℮^(μ+σ²/2) | P₁/P₀ |
| median | ℮^μ | |
| mode | ℮^(μ-σ²) | |
| variance | (℮^σ²-1) * | P₂/P₀-(P₁/P₀)² |
| | ℮^(2μ+σ²) | |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| P(x) | 1/(x√(2πσ²) | (m)*( n )*ω^x / P₀ |
| (density f())|*℮^((ln(x)-μ)²)| (x) (k-x) |
| | /2σ²) | |
| | | |
| | | |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Pc(x) | | |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Examples | Phénomène dont| |
| | le logarithme | |
| | ~ N(). | |
| | Beaucoup de | |
| | tissus vivants| |
| | (poids,taille)| |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| R functions | *lnorm | *hypr |
+--------------+---------------+----------------------------------------------------------------------------------------------+
| Autre | ∏ lnN(μ,σ²) = | |
| | lnN(∑μ,∑σ²) | |
+--------------+---------------+----------------------------------------------------------------------------------------------+
Multivariate distribution :
- distribution sur plusieurs variables
- représentée graphiquement par un graph à n-dimensions si 2 ou 3 variables
- types :
- joint distribution de variables ayant toutes la même ̅s
- plusieurs variables aux rôles différents venant de paramètres sériels de ̅s (ex: multinomial dist.)
- ne semblent pas avoir de cdf ??
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Distribution | Multinomial | Categorical | Multivariate | Multivariate (Fisher's) |
| | | /"Discrète" | Hypergéométq. | noncentral hypergeom. |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Type | Discrète | Discrète | Discrète | Discrète |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Aspect | Ressemble à B() | Comme Bernoulli | Comme | |
| | pour chaque var | pour chaque var | Multinomial() | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Notation | | | | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Paramètres | n: sample size | p₁,...,pₖ: prob. | m...mₙ: sous- | Comme central, |
| | p₁,...,pₖ: prob.| | groupe size | avec en plus: |
| | des sous-groupes| | k: sample size | ω...ωₙ: odds ratio |
| | (∑pₖ=1) | | (∑mₙ=pop.size) | du groupe n |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Note perso | | = Multinomial | Comme Multinomial | Si tous ωₙ = 1, |
| | | (1,...) | sans remplacement | = central hypergeom. |
| | | | Soit N = ∑mₙ | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| x | Chaque xₖ = | Si xₖ = 1, prob. | | |
| | prob. que sample| qu'event soit du | | |
| | contienne xₖ |groupe k, soit pₖ | | |
| | individus du | Si 0, inverse. | | |
| | sous-groupe k | | | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
|POUR CHAQUE xₙ| | | | |
| range | [0,n] (∑xₖ=n) | [0,1] | [0,mₙ] (∑xₙ=k) | |
| mean | n*pₖ | pₖ | mₙ*k/N | |
| median | | median(p₁,...pₖ) | | |
| mode | | max(p₁,...,pₖ) | | |
| variance | n*pₖ*(1-pₖ) | pₖ*(1-pₖ) | mₙ/N*(1-mₙ/N) * k | |
| | | | * (N-k)/(N-1) | |
| cov(x₁,x₂) | -np₁p₂ | -p₁p₂ | -km₁m₂/N²*(N-k)/(N-1)| |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| P(x) | ( n ) | pₖ, où k est | (∏(mₙ))/(N) | |
| (density f())| (x₁,...,xₖ) | l'index du xₖ | (xₙ) (k) | |
| | * ∏pₖ^xₖ | = 1 | | |
| | | | | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Examples | Chances que n | Jeu vidéo, prob. | Prob. tirer deux | |
| | prochains coups | qu'ennemi fasse | carreaux, 1 pique | |
| | de roulette | attaque 1,2 ou 3 | et 3 trèfle sur | |
| | soient x₀ rouge,| | 6 cartes piochées. | |
| | x₁ noir et x₂ | | | |
| | zeros. | | | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| R functions | *multinom | *multinom(size=1)| *mhypr | *mhypr |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
| Autre | Si k = 1 ou 2 ->| | Si n = 1 ou 2 -> | |
| | Binomial | | Hypergéométrique | |
| | Chaque xₖ ~ | | univariate. | |
| | B(n,pₖ) | | | |
+--------------+-----------------+------------------+----------------------+--------------------------------------------------+
Approximation par distribution normale :
- on prend moyenne et σ de la distribution à approximer, et on la donne à N()
- notamment :
- B(n,p) -> N(np,√(np(1-p))) (quand n est grand, p proche de 0.5)
- lorsque p *très* éloigné de 0.5, préférer Poisson approximation : B(n,p) -> Pois(np)
- Pois(λ) -> N(λ,λ) (quand λ est grand)
- t(v) -> N(0,1) (quand v est grand)
- faire la "continuity correction" lors de cdf, mais pas pour pdf
Confidence :
- confidence :
- Pc(x ∈ "confidence interval") = confidence level
- margin of error: length(confidence interval)/2, noté E
- confidence level pour N() :
- "three-sigma"/"empirical"/"68-95-99.7 rule"
- P(μ-σ,μ+σ) = 68%
- P(μ-1.96σ,μ+1.96σ) = 95%
- également P(μ-2.58σ,μ+2.58σ) = 99%
- P(μ-3σ,μ+3σ) = 99.7%
- calcul :
- pour confidence interval de ̊m estimant ̅m :
- résoudre équation, de sorte d'isoler m̅, en remplaçant m̊ par m
- right-hand donne le confidence interval
- si ̊m = Dist() * m̅, alors conf.int. pour ̅m est m/Dist()
- ex:
̊μ₁ = N(0,1) * ̅σ / √n + ̅μ
̅μ (conf.int.) = μ₁ - N(0,1) * ̅σ / √n
- souvent, on :
- calcule confidence interval, pour un n et confidence level donné
- calcule un n, pour un confidence interval et confidence level donné
- par ex., si P() suit N(), et que l'on veut confidence level de 95%, calculer n de sorte que σ = confidence interval/4
- dans les deux cas, dépend du résultat donné
- ex: ampleur de confidence interval de s ~ B(n,p) dépend de p, mais p est lui-même l'objet de l'estimation (estimé via
s) et du confidence interval
- solution :
- utilise une équation de n/confidence interval requis en fonction du paramètre
- ex: pour s ~ B(n,p)/n, en utilisant CLT :
- on cherche 95% de confidence dans interval p±a
- donc on cherche un n tel que σ = a/2
- ou on résout cette équation pour sa valeur donnant le n/confidence interval maximum :
- ex: pour s ~ B(n,p), p=0.5 donne σ² maximum n/4
On peut estimer via calcul du saddle point de p*(1-p) :
(p*(1-p))' = 0
(p-p²)' = 0
1-2p = 0
p = 1/2
- donc √(n*p*(1-p))/n = a/2
√n/n = a
√n = 1/a
n = 1/a²
Donc pour un interval de confiance de ±5%, n = 1/0.05² = 400
Sampling :
- sample :
- subset d'une population
- peut être avec ou sans replacement (doublons)
- peut être ordered, alors position de l'élément importe
- ensemble des samples possibles, "sample space du random sample" :
- pour une population de taille ̅n et un sample de taille n :
- avec replacement : ̅nⁿ
- sans replacement, unordered : (̅n)
(n)
- sans replacement, ordered : (̅n)ₙ
- notation :
- s dénote un random sample
- ̊s est la distribution de ce sample
- (s)̊ est équivalent de ̊s
- (statistic)̊ signifie distribution de tel statistic
- ̅s est la distribution de la population
- sampling distribution :
- si sample random, alors P() que le sample choisi, de taille n, ait la valeur x
- sample space of the sample average/median/etc. : quand f(x) est average/mean/etc.
- ici, je me concentre sur SampleMean, mais cela est parfois valable pour les autres
- ex:
+------------+--------------------+--------------------------+
| SOURCE | SAMPLE,taille n | SAMPLEMEAN |
+------------+--------------------+--------------------------+
| Data | sample(data,n) | ∞ fois μ(sample(data,n)) |
| Ex nihilo | r*(n,param) | ∞ fois μ(r*(n,param)) |
+------------+--------------------+--------------------------+
- SampleMean est un sample de sample, donc :
- les unités observées sont des samples (groupe de n outcomes) et non des outcomes isolés
- le x observé est une statistic (ex: height mean) et non une measure (ex: height)
- tout cela suppose que sample soit random
- notation :
- m pour statistic d'un sample donné, ou m₁, ou mₙ
- ̊m pour sampling dist. d'un statistic, ou sampleM
- ̅m pour parameter d'une population, ou m(̅s)
- ex: μ₁ est μ(s₁), ̊μ est sampleMean, ̅μ est mean(̅s)
σ²₁ est var(s₁), ̊σ² est sampleVar, ̅σ² est var(̅s)
- ̊μ(n) = probability qu'un sample de taille n ait une mean x
- différence entre une statistic, e.g. μ₁, et un parameter, e.g. ̅μ, est la sampling error
- la distribution de la sampling error d'une statistic donné est ̊m-̅m
- standard error d'une statistic est le σ de sa sampling dist., noté SE
- SE(μ) = σ(̊μ)
- ̊μ(1) == ̅s
CLT (Central Limit Theorem) :
- Somme/mean de n iid. variables, (suivant ̅s(̅μ,̅σ²) tend vers N(̅μ,̅σ²/n) quand n augmente, quelque soit ̅s
- en d'autre terme ̊μ tend vers N(̅μ,̅σ²/n), pour tout ̅s
- seulement pour ̊μ, pas forcément pour autres statistics
- n minimum pour avoir un bon match dépend de ̅s :
- selon mes estimations, pour un match de 95% :
- Exponential() : n > 135
- U() : n > 50
- Pois() : n > assez grand (encore plus lorsque λ faible)
- attention, si n est trop petit, alors ne marche pas
- conséquences :
- μ(̊μ) == ̅μ
- σ²(̊μ) == ̅σ²/n (Law of Large numbers)
- donc σ(̊μ) == ̅σ/√n