-
Notifications
You must be signed in to change notification settings - Fork 2
/
08_grundlagen-der-statistik.Rmd
548 lines (420 loc) · 47.2 KB
/
08_grundlagen-der-statistik.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
## **Grundlagen der Statistik**
[![License: CC BY 4.0](https://img.shields.io/badge/License-CC%20BY%204.0-lightgrey.png)](https://creativecommons.org/licenses/by/4.0/deed.de)
*"Grundlagen der Statistik" von Michael Aydinbas in "R Lernen - der Datenkurs von und für die Zivilgesellschaft" von CorrelAid e.V. Lizensiert unter [Creative Commons Attribution 4.0 International](https://creativecommons.org/licenses/by/4.0/deed.de).*
In dieser Woche geht es um die Grundlagen des statistischen Denkens.
Wir beschäftigen uns aber nicht mit der Statistik aus purem Selbstzweck, sondern sie ist ein ganz wesentlicher Teil und Voraussetzung für den kritischen Umgang mit Daten. Daher schauen wir uns zu Beginn an, was wir für einen kompetenten Umgang mit Daten benötigen, wie wir Datenkompetenz erlangen können und welche Rolle die Statistik dabei spielt.
Im Anschluss beginnen wir mit einer Einführung in die Statistik und diskutieren, wie Daten in der Öffentlichkeit präsentiert werden. Anschließend lernen wir, was Daten und Datentypen sind. Mit diesem Wissen steigen wir in die Grundbegriffe der Statistik ein und schauen uns an, wie Daten (mehr oder weniger) sinnvoll zusammengefasst werden können. Zum Schluss diskutieren wir das wichtige Thema Korrelation und Kausalität.
### **Data Literacy**<sup><a href="#section-quelle-1">1</a></sub>
Daten sind im digitalen Zeitalter eine Schlüsselressource für gesellschaftliche Teilhabe, Wohlstand und Wettbewerbsfähigkeit, für den Schutz von Klima und Umwelt sowie staatliches Handeln. Die Fähigkeiten, Daten auf kritische Art und Weise zu sammeln, zu verwalten, zu bewerten und anzuwenden, wird als Data Literacy bezeichnet. Data Literacy umfasst dabei nicht nur Statistikkompetenz oder ein mathematisches Grundverständnis, sondern auch Fertigkeiten wie Digital- und Medienkompetenz. Wer datenkompetent („data literate“) ist, kann die Zuverlässigkeit von Datenquellen beurteilen, Daten zielgerichtet aufbereiten und einordnen sowie sinnvolle Schlüsse aus diesen Daten ziehen.
Wenn Daten Entscheidungsprozesse unterstützen sollen, braucht es kompetente Antworten auf vier grundlegende Fragen:
- **Was will ich mit Daten machen**? Daten und Datenanalysen sind kein Selbstzweck, sondern dienen einer konkreten Anwendung in der realen Welt.
- **Was kann ich mit Daten machen**? Datenquellen und deren Qualität sowie der Stand der technischen und methodischen Entwicklungen eröffnen Möglichkeiten und setzen Grenzen.
- **Was darf ich mit Daten machen**? Alle gesetzlichen Regeln der Datennutzung (zum Beispiel Datenschutz, Urheberrechte und Lizenzfragen) müssen immer mitbedacht werden.
- **Was soll ich mit Daten machen**? Weil Daten eine wertvolle Ressource darstellen, leitet sich daraus ein normativer Anspruch ab, sie zum Wohl von Individuen und Gesellschaft zu nutzen.
Die nachfolgende Abbildung zeigt ein zyklisches Prozessmodell, das die notwendigen Schritte für einen **kompetenten Umgang mit Daten** abbildet. Auch wenn das Schaubild keinen klaren Startpunkt vermittelt, weil der Prozess mehrfach durchlaufen werden kann, so wird man für gewöhnlich mit der Eingrenzung der Aufgabe und der Formulierung von (Forschungs-)Fragen beginnen.
<p>
<center>
![**Abbildung**: Zyklisches Modell des Prozesses der Wertschöpfung aus Daten. Quelle: Schüller, Busch, Hindinger (2019)](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/Zyklisches_Modell.png?raw=true){#id .class width=70% height=70%}
</center>
</p>
Im oberen Schaubild ist die Statistik an fast allen Schritten beteiligt:
- Sie spielt bei der Planung der Datenerhebung (Messung) eine Rolle, wenn es darum geht, welche Daten in welchen Einheiten erhoben werden sollen
- Sie spielt bei der Erhebung der Daten eine Rolle, wenn es darum geht, eine repräsentative Stichprobe auszuwählen sowie Messfehler und Verzerrungen zu vermeiden
- Sie spielt bei der Datenanalyse eine zentrale Rolle, wenn es darum geht, Muster und Auffälligkeiten in den Daten zu finden
- Sie spielt bei der Interpretation der Daten eine zentrale Rolle, wenn es darum geht, gefundene Zusammenhänge auf ihre Bedeutung hin zu prüfen und zu bewerten
- Sie spielt bei der Entscheidungsfindung eine Rolle, wenn es darum geht, auf Basis der erhobenen Daten Entscheidungen abzuleiten
Daher wollen wir uns näher mit den Grundlagen der Statistik beschäftigen. Wir tun dies hier aber sehr anwendungsorientiert und werden nur die Grundlagen behandeln, die beim Umgang mit eigenen Daten und Datensätzen direkt angewendet werden können.
### **Einführung in die Statistik**<sup><a href="#section-quelle-2">2</a></sub>
<div>
<video width="320" height="240" controls>
<source src="https://www.destatis.de/static/DE/videos/Imagevideo_Weltstatistiktag_2020.mp4" type="video/mp4">
Your browser does not support the video tag.
</video>
</div>
*Quelle: Weltstatistiktag - Statistisches Bundesamt, https://www.destatis.de/DE/Ueber-uns/Ziele-Strategie/weltstatistiktag-2020.html (Februar 2024).*
Die Statistik ist eine Wissenschaft, die alle Lebensbereiche durchdringt. Jeder von uns ist heute im Alltag mit einer Fülle von Daten und Visualisierungen von Daten konfrontiert, die uns über verschiedene Kanäle erreichen. Im Internet kann man gezielt nach Daten aller Art suchen, z.B. nach statistischen Informationen zu Migrationsströmen oder zur Kursentwicklung von Kryptowährungen. Zugleich wird die Online-Präsentation von Daten immer benutzerfreundlicher. Dies gilt insbesondere für Daten der amtlichen Statistik – wie das folgende Beispiel einer [interaktiven Präsentation der Bevölkerungsvorausberechnung](https://service.destatis.de/bevoelkerungspyramide/) für Deutschland des Statistischen Bundesamts (Destatis) zeigt.
```{r echo=FALSE}
vembedr::embed_url("https://youtu.be/fmpxGo1JJiE?si=5_Wu79t3LVA9gmLF")
```
*Quelle: von6auf1 - "Statistik Teil 1 - statistische Daten - Merkmalsträger, Merkmalsausprägung ...", https://youtu.be/fmpxGo1JJiE?si=5_Wu79t3LVA9gmLF (04.11.2015, abgerufen Februar 2024)*
In der Statistik nennt man die Objekte, auf die sich eine statistische Untersuchung bezieht, statistische Einheiten oder **Merkmalsträger**. Daten werden also an statistischen Einheiten bzw. Merkmalsträgern erhoben. Die Menge aller für eine Fragestellung interessierenden statistischen Einheiten bildet eine **Grundgesamtheit**. Sie wird auch als **Population** bezeichnet. Wichtig ist, dass eine Grundgesamtheit klar abgegrenzt ist.
Die Eigenschaften statistischer Einheiten werden **Merkmale oder Variablen** genannt. Die möglichen Werte, die ein Merkmal annehmen kann, heißen **Merkmalsausprägungen**. Wählt man aus einer Grundgesamtheit nach einem Auswahlverfahren (engl. Sampling) eine Teilmenge aus, spricht man von einer **Stichprobe**. Die folgende Abbildung verdeutlicht noch einmal den Zusammenhang zwischen Population und Stichprobe.
<div style="border-width:1px; border-style:solid; border-color:#acc940; padding: 1em;">
<p style="color:#acc940;"><b>Beispiele: Statistische Grundbegriffe</b></p>
Eine Grundgesamtheit ist z.B. definiert durch
- alle Personen, die am 1. Mai 2023 in Berlin ihren Erstwohnsitz hatten;
- Studierende einer Universität zu Beginn des Wintersemesters 2023, über die man via Internetbefragung Informationen gewinnen will;
Die statistischen Einheiten werden hier repräsentiert durch
- jede Person mit Erstwohnsitz in Berlin am 1. Mai 2023;
- alle zum Wintersemester 2023 eingeschriebenen Studierenden;
Interessierende Merkmale und Merkmalsausprägungen können hier sein
- der Familienstand der Person, etwa mit den Ausprägung „single“, "verheiratet", "geschieden";
- das Alter der Studierenden, erfasst z.B. in Form von Altersklassen;
</div>
<p>
<center>
![**Abbildung**: Population und Stichprobe. Quelle: <https://systats.github.io/linear_model/basics.html>](https://systats.github.io/linear_model/images/pop/population.png){#id .class width=70% height=70%}
</center>
</p>
#### **Aufgaben und Teilbereiche der Statistik**
Für Statistiker ist der Begriff „Statistik“ nicht eindeutig belegt. Sie verstehen hierunter einerseits ihre Wissenschaft als Ganzes. Sie verwenden den Begriff aber auch für Kenngrößen, die sich aus statistischen Daten ableiten (z.B. den Mittelwert). Im allgemeinen Sprachgebrauch wird auch häufig ein Datensatz als eine Statistik angesprochen, etwa ein Datensatz mit der Medaillenverteilung bei den Olympischen Sommerspielen. In diesem Kurs wird „Statistik“ im Sinne von „Wissenschaft“ verwendet, also bestimmte Methoden sowie Denk- und Herangehensweisen.
Innerhalb der Statistik lassen sich die *beschreibende* und die *schließende* Statistik unterscheiden. Die beschreibende oder **deskriptive Statistik** umfasst numerische und grafische Verfahren zur Charakterisierung und Präsentation von Daten. Ziel ist die **Reduktion** (Zusammenfassung) der in den Daten enthaltenen statistischen Informationen durch Verdichtung zu wenigen Kenngrößen, möglichst ohne größeren Informationsverlust. Auf diesen Zweig der Statistik wollen wir uns im Rest dieser Lerneinheit konzentrieren.
Aus der beschreibenden Statistik hat sich die **explorative Datenanalyse** entwickelt. Diese geht über die beschreibende Statistik hinaus, weil hier – noch ohne Einsatz von (mathematischen) Modellen – mit rechenintensiven Verfahren nach auffälligen Mustern und Strukturen in Datenbeständen gesucht wird. So werden etwa die Scannerdaten eines Lebensmittelkonzerns von einem Verkaufstag routinemäßig nach Auffälligkeiten durchleuchtet, ohne dass sofort eine Hypothese im Spiel ist. So entdeckt man Trends im Käuferverhalten und kann zudem rechtzeitig Nachbestellungen organisieren.
Die schließende oder **induktive** Statistik leitet aus Stichprobendaten **Aussagen** ab, die über die jeweilige Stichprobe hinausgehen und sich auf eine umfassendere **Grundgesamtheit beziehen**. Sie sei aber nur der Vollständigkeit halber genannt und wird uns heute nicht weiter beschäftigen.
Jetzt wollen wir uns einige Pressemitteilungen des Statistischen Bundesamts näher ansehen.
#### **Pressemitteilungen**
Im Folgenden zeigen wir exemplarische Pressemitteilungen des Statistischen Bundesamts (Destatis) und die dazu veröffentlichten Grafiken. Diese Pressemitteilungen sind typische Beispiele für die Veröffentlichungen von statistischen Ämtern und zeigen, wie Daten in der Öffentlichkeit präsentiert werden.
Achtet auf die Kommunikation sowie die verschiedenen Darstellungsarten. Welches Wissen bzw. welche Fähigkeiten werden beim Betrachter vorausgesetzt? Welche Informationen werden vermittelt? Findet ihr die Grafiken geeignet, um die Informationen zu vermitteln?
##### Inflationsrate im Januar 2024 bei +2,9 %. Inflationsrate schwächt sich zu Jahresbeginn ab.
Verbraucherpreisindex, Januar 2024
- +2,9 % zum Vorjahresmonat (vorläufiges Ergebnis bestätigt)
- +0,2 % zum Vormonat (vorläufiges Ergebnis bestätigt)
<p>
<center>
![*Quelle: <https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/02/PD24_051_611.html>*](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/vpi-kraftstoffe-nahrung.png?raw=true){#id .class width=100%}
</center>
</p>
```{r 08_quiz1, echo=FALSE}
quiz(caption = "Fragen zur Pressemitteilung",
question("Welche der drei Kategorien (VPI insgesamt, Energie, Nahrungsmittel) weist die größte Schwankung über die Zeit auf? Warum?",
answer("VPI insgesamt"),
answer("Energie", correct = TRUE),
answer("Nahrungsmittel"),
correct = "Richtig! Der Verlauf der Energiepreisindizes zeigt die deutlichsten Schwankungen und damit Veränderungen über die Zeit. Dies ist auch nicht weiter verwunderlich, da Preise auf dem Strommarkt deutlich stärker schwanken, als Lebensmittelpreise, u.a. durch starke globale Abhängigkeiten. Da die Linie für 'VPI insgesamt' keine eigene Kategorie ist, sondern der Verbraucherpreisindex über alle Kategorien, ist der Verlauf deutlich glatter als der Verlauf für eine einzelne Kategorie.",
incorrect = "Leider falsch. Schau dir den zeitlichen Verlauf der drei Linien an. Welche Linie ist besonders 'ruhig' und welche Linie ist besonders 'wild'?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Was lässt sich über die Preisentwicklung seit Januar 2021 sagen?",
answer("Alle drei Indizes lagen stets über 100.", correct = TRUE),
answer("Energie und Nahrungsmittel lagen stets über 100, aber nicht VPI gesamt."),
answer("Alle drei Indizes waren auch einmal unter 100."),
correct = "Richtig! Seit Januar 2021 liegen alle drei Linien stets über dem Referenzwert 100 (schwarze Linie), daher sind die Preise niemals unter diesen Wert gefallen.",
incorrect = "Leider falsch. Die Linien liegen alle stets über dem Vergleichswert von 100 (schwarze Linie) nach Januar 2021.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
##### Menschen in Deutschland bei erster Heirat immer älter – Durchschnittsalter auf neuem Höchststand.
- Frauen bei erster Eheschließung 2022 im Schnitt 32,6 Jahre alt, Männer 35,1 Jahre
- Zahl derjenigen, die mit 50+ zum ersten Mal heiraten, von 7 500 im Jahr 2002 auf rund 41 500 im Jahr 2022 gestiegen
- Rund die Hälfte (49 %) der erwachsenen Bevölkerung war Ende 2022 verheiratet, bei den 65- bis 69-Jährigen gut zwei Drittel (68 %)
<p>
<center>
![*Quelle: <https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/02/PD24_N007_126.html>*](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/eheschliessende-nach-altersgruppen.png?raw=true){#id .class width=100%}
</center>
<center>
![*Quelle: <https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/02/PD24_N007_126.html>*](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/anteil-verheiratete.png?raw=true){#id .class width=100%}
</center>
</p>
```{r 08_quiz2_v2, echo=FALSE}
quiz(caption = "Fragen zur Pressemitteilung",
question("In welcher Altergruppe gibt es die größten Unterschiede zwischen 2002 und 2022 (Grafik 1)?",
answer("50 Jahre und älter"),
answer("40-49 Jahre"),
answer("30-39 Jahre"),
answer("Unter 30 Jahren", correct = TRUE),
correct = "Richtig! Den größten Unterschied gibt es in der Altersgruppe 'Unter 30 Jahren', da hier ein Rückgang von etwa 52 % auf 36 % zu beobachten ist, also ein Rückgang von 16 %.",
incorrect = "Leider falsch. Schau dir die länge der Balken an. In welcher Altersgruppe sind die Balken am unterschiedlichsten?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Sind die Altersgruppen sinnvoll gewählt (Grafik 1)?",
answer("Ja"),
answer("Nein"),
answer("Das kommt drauf an", correct = TRUE),
correct = "Das kann man so einfach nicht sagen! Bis auf die erste und letzte Altersgruppe umfasst jede Gruppe 10 Jahre. Bei der ersten Gruppe kann man argumentieren, dass eine weitere Unterteilung in ' Unter 20 Jahre' nicht sinnvoll ist, da diese Gruppe zu klein ist. Bei der letzten Gruppe kann man ähnlich argumentieren, dass eine erste Heirat vermutlich mit über 60 sehr unwahrscheinlich wird. Aber diese Einteilungen sind dennoch 'willkürlich' und können die Visualisierung entscheidend verändern.",
incorrect = "Leider falsch. Die Frage ist gemein, das wissen wir. Aber wie so oft im Leben: Es kommt eben darauf an.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Welche Altersgruppe weist die meisten Verheirateten in % der jeweiligen Altersgruppe auf (Grafik 2)?",
answer("30"),
answer("40"),
answer("50"),
answer("60"),
answer("70", correct=TRUE),
answer("80"),
correct = "Richtig! Die Frage bezieht sich auf die zweite Grafik, greift aber die letzte Frage mit auf. Obwohl die erste Grafik alle Menschen ab 50 Jahre aufwärts in einer Gruppe einsortiert, zeigt die zweite Grafik doch noch deutliche Unterschiede innerhalb dieser Gruppe, was den Anteil der Verheirateten anbelangt. So ist der Anteil der 50-Jährigen Verheirateten bei etwa 60 %, bei den 60-Jährigen steigt dieser Anteil bereits auf etwa 66 % und bei den 70-Jährigen (oder knapp darunter) erreicht er das Maximum von etwas über 70 %. Interessanterweise sinkt der Anteil bei den über 80-Jährigen dann deutlich unter den Durchschnitt, d.h. die meisten über 80-Jährigen sind nicht verheiratet, oder, wie die Beschreibung am unteren Rand erklärt, verwitwet.",
incorrect = "Leider falsch. Schau dir die blaue Kurve an und versuche, die Altersgruppe zu finden, die den höchsten Wert auf dieser Kurve hat.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
##### Bierabsatz 2023 um 4,5 % niedriger als im Vorjahr.
- Inlandsabsatz um 4,2 % gesunken, Bierexporte um 5,9 % niedriger als im Vorjahr
- Auch langfristig sinkender Bierabsatz: Im Jahr 2023 haben die Brauereien und Bierlager 11,5 % weniger Bier abgesetzt als im Jahr 2013
<p>
<center>
![*Quelle: <https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/02/PD24_043_799.html>*](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/bierabsatz.png?raw=true){#id .class width=100%}
</center>
</p>
```{r 08_quiz3, echo=FALSE}
quiz(caption = "Fragen zur Pressemitteilung",
question("Was verrät die Färbung der Monatssegmente über den Bierabsatz eines Jahres (z.B. die Segmente des äußersten Ringes für das Jahr 2023)?",
answer("Ich habe eine Idee", correct=TRUE),
answer("Keine Idee"),
correct = "Die Farbskala geht über alle jemals gemessenen Werte zwischen Mai 2000 (höchster Wert) und Jan 2021 (niedrigster Wert). D.h. der hellste Blauton stellt den Minimalwert da, der dunkelste Blauton den Maximalwert. Wenn man sich auf einen Ring konzentriert, so fällt auf, dass die Wintermonate (=Segmente) grundsätzlich heller sind als die Sommermonate, vermutlich, weil die Menschen im Sommer mehr Bier konsumieren als im Winter.",
incorrect = "Wenn du dich auf einen Ring (= ein Jahr) konzentrierst, was fällt dir dann in Bezug auf die Färbung der Segmente auf? Welche Monate sind heller, welche dunkler? Was kannst du daraus über den Absatz schlussfolgern? Liegt dem ein saisonaler Trend zugrunde?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("In welchem Monat und Jahr war der geringste Absatz, in welchem der größte Absatz?",
answer("Sehe ich", correct = TRUE),
answer("Sehe ich nicht"),
correct = "Diese Frage ist natürlich nicht ganz einfach nur anhand der Grafik abzulesen. Die hellste Färbung tritt im Januar und Februar auf, daher ist zumindest einer der niedrigsten Wert der Januar 2021. Umgekehrt treten die dunkelsten Blautöne im August und Mai auf, daher dürfte einer der absatzstärksten Monate der Mai 2000 gewesen sein.",
incorrect = "Da die Farbskala global für alle Monate und Jahre gilt, muss der Monat mit dem geringsten Absatz die hellste Färbung, der Monat mit dem größten Absatz die dunkelste Färbung aufweisen.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Was verrät die Färbung eines Monats (alle Segmente) über alle Jahre hinweg (z.B. August von 1993 - 2023)?",
answer("Ich habe eine Idee", correct=TRUE),
answer("Keine Idee"),
correct = "Wenn wir uns den Verlauf der Jahre ansehen, aber in einem Monat bleiben, so bewegen wir uns nicht im Uhrzeigersinn, sondern von innen nach außen. Wenn wir uns z.B. den August nehmen, so sehen wir im Inneren des Kreises sehr dunkelblaue Segmente. Gegen außen hin werden diese Segmente jedoch zunehmend heller. Das deutet darauf hin, dass der Absatz für diesen Monat über die Jahre zurückgegangen ist.",
incorrect = "Nimm dir einen beliebigen Monat heraus und konzentriere dich auf den Verlauf der Färbung vom Kreisinneren zum Kreisäußeren. Was fällt dir auf? Was bedeutet dieser Farbverlauf bzw. die Änderung der Farbhelligkeit für den Absatz über die Jahre hinweg?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
### **Was sind Daten?**<sup><a href="#section-quelle-3">3</a></sub>
Im letzten Abschnitt haben wir uns bereits mit Daten und Datenvisualisierungen auseinandergesetzt. Jetzt ist es Zeit, dass wir einmal genau festlegen, was wir mit Daten eigentlich meinen.
Beginnen wir mit der Frage, was Daten und was Informationen sind. **Information ist abgeleitetes Wissen**. Dieses Wissen wollen wir anderen vermitteln sowie aufbewahren. Eine Möglichkeit, dies zu erreichen, ist durch die Wahl einer geeigneten Kodierung. **Daten sind kodierte Informationen**. Da ein und dieselbe Information auf unterschiedliche Weise kodiert werden kann (verschiedene Einheiten, verschiedene Skalen usw.), kann ein und dieselbe Information auch mit unterschiedlichen Daten ausgedrückt werden. Verstehe ich die Kodierung hingegen nicht, so sind die Daten für mich wertlos, da ich die kodierten Informationen nicht verwerten kann.
Wenn wir uns nun eine gewöhnliche Tabelle vorstellen, so enthält diese Tabelle kodierte Informationen und somit Daten. Eine Tabelle mit Daten nennen wir daher auch einen **Datensatz**.
Jede Zeile einer Tabelle stellt eine zusammenhängende Informationseinheit dar, die zu einem bestimmten Zeitpunkt erhoben oder gemessen wurde. Jede Spalte einer Tabelle repräsentiert eine Eigenschaft, die uns interessiert, und die für alle Zeilen auf die gleiche Art und Weise kodiert wird, so dass wir die verschiedenen Messungen leicht vergleichen können.
Die Zeilen eines Datensatzes bezeichnen wir als **Messungen**, **Beobachtungen**, **Aufzeichnungen** (engl. records), oder **Versuche**. Die Spalten einer Tabelle bezeichnen wir als **Merkmale**, **Features**, **Attribute**, **Felder**, oder **Variablen**. Daher kann man einen Datensatz auch beschreiben als eine Sammlung von $N$ Beobachtungen mit $Y$ Merkmalen oder Variablen. Man spricht in diesem Falle von der **Dimension** des Datensatzes. Ein **Datenpunkt** oder **Datenwert** ist der Schnittpunkt (eine Zelle in der Tabelle) zwischen einer Beobachtung und einem Merkmal. Jede Tabelle besitzt eine Kopfzeile (engl. header), die die Merkmale näher beschreibt.
Die nachfolgende Abbildung stellt alle Begriffe dieses Abschnittes noch einmal übersichtlich zusammen.
<p>
<center>
![**Abbildung**: Grundbegriffe für den Umgang mit tabellarischen Datensätzen. Quelle: Eigene Darstellung.](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/Datensatz.png?raw=true){#id .class width=100%}
</center>
</p>
```{r 08_quiz_datensatz, echo=FALSE}
quiz(caption = "Fragen zu tabellarischen Daten",
question("Wie viele Merkmale hat der Datensatz aus der Abbildung?",
answer("2"),
answer("3", correct = TRUE),
answer("4"),
answer("5"),
correct = "Richtig. Der Datensatz hat 3 Merkmale: 'Name', 'Alter' und 'Reaktionszeit'. 'Index' ist kein Merkmal im eigentlichen Sinne, da es automatisch für uns erzeugt wird.",
incorrect = "Leider falsch. Zähle nochmal die Spalten in der Tabelle. Ist 'Index' ein Merkmal, dass wir messen würden?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Wie viele Beobachtungen hat der Datensatz aus der Abbildung?",
answer("2"),
answer("3"),
answer("4", correct = TRUE),
answer("5"),
correct = "Richtig. Der Datensatz zeigt vier Beobachtungen, da es vier Zeilen mit befüllten Werten gibt und jede Zeile ist eine Beobachtung/Messung.",
incorrect = "Leider falsch. Zähle nochmal die Zeilen in der Tabelle.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Wie lauten die Dimensionen des Datensatzes aus der Abbildung?",
answer("4x4"),
answer("4x3", correct = TRUE),
answer("3x4"),
answer("3x3"),
correct = sprintf("Richtig. Die Dimension eines Datensatzes wird angegeben als Anzahl Zeilen $\\times$ Anzahl Spalten, daher ist die richtige Antwort $4 \\times 3$"),
incorrect = "Leider falsch. Die Dimension eines Datensatzes wird angegeben als Anzahl Zeilen $\\times$ Anzahl Spalten.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
#### **Datentypen**
Daten können je nach Kodierung in verschiedene **Datentypen** eingeteilt werden. Die zwei wichtigsten Datentypen werden als *numerisch* und *kategorisch* bezeichnet. **Numerische Daten** werden in Zahlen (und ggf. eine Einheit) ausgedrückt. **Kategorische Daten** werden meist in Worten und Symbolen ausgedrückt. Es gibt jedoch auch kategorische Daten wie Postleitzahlen, die trotz ihres numerischen Charakters nur sinnvoll als kategorische Daten interpretiert werden können.
Numerische Daten werden in zwei Hauptkategorien unterteilt:
- **Kontinuierliche Daten** können jede Zahl innerhalb eines bestimmten Bereichs annehmen. Sie stellen eine grundsätzlich nicht abzählbare Menge von Werten dar, d.h., es gibt immer noch einen Wert zwischen zwei beliebigen Werten. Beispiele für diesen Datentyp sind Wetterdaten wie die Menge an Niederschlag oder die Außentemperatur. Die Außentemperatur kann mit beliebiger Genauigkeit angegeben werden, also beispielsweise mit $29\ °C$, $28,6\ °C$, oder $28,6425\ °C$.
- **Diskrete Daten** sind auf ganze Zahlen beschränkt. Sie stellen eine abzählbare Menge von Werten dar. Beispiele für diesen Datentyp sind die Anzahl der Kinder in einer Familie oder die Anzahl der Tore in einem Fußballspiel. Man kann $0, 1, 2$ oder mehr Kinder haben, aber nicht $1,28$ Kinder.
<p>
<center>
![**Abbildung**: Numerische Datentypen. Quelle: \@allison_horst, lizensiert nach cc by 4.0](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/04_daten-verstehen/AllisonHorst_Datentypen2.png?raw=true){#id .class width=100%}
</center>
</p>
Kategorische Daten werden ebenfalls in zwei Hauptkategorien unterteilt:
- **Ordinale Daten** besitzen eine natürliche Ordnung. So nutzen Umfragen Ordinaldaten, wenn sie nach eurer Erfahrung oder Zustimmung auf einer Skala von 1-10 fragen. Die Werte sehen zwar wie diskrete Daten aus, aber es ist nicht möglich oder sinnvoll, den Abstand zwischen zwei Werten zu interpretieren. Man kann nicht sagen, dass der Abstand zwischen einer 9 und 10 in einer Umfrage identisch ist mit dem Abstand zwischen einer 0 und einer 1. Ordinaldaten müssen nicht mit Zahlen kodiert sein. So können Kleidergrößen wie S, M, L, XL, XXL als Ordinaldaten interpretiert werden.
- **Nominale Daten** besitzen keine natürliche Ordnung. Beispiele für nominale Daten sind die Farbe eines Autos, die Nationalität, das Geschlecht, die Postleitzahl oder die Parteizugehörigkeit. Die Reihenfolge, in der die Daten präsentiert werden, ist willkürlich, da es nicht möglich ist, eine Kategorie als "größer" oder "kleiner" als eine andere zu bezeichnen.
<p>
<center>
![**Abbildung**: Kategorische Datentypen. Quelle: \@allison_horst, lizensiert nach cc by 4.0](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/04_daten-verstehen/AllisonHorst_Datentypen1.png?raw=true){#id .class width=100%}
</center>
</p>
Warum sind diese sogenannten **Skalenniveaus** wichtig für uns? Das Skalenniveau bestimmt, welche statistischen Methoden angewendet werden können. So können beispielsweise Mittelwerte nur für kontinuierliche numerische Daten sinnvoll berechnet werden (man denke an den Notenspiegel aus der Schule, bei dem die Durchschnittsnote wenig sinnvoll ist, wenn Noten selbst diskrete Werte darstellen). Nominale kategorische Daten hingegen lassen sich nur sinnvoll über Häufigkeiten zusammenfassen, mehr kann man mit ihnen nicht anstellen. Außerdem hilft ein gemeinsames Vokabular dabei, sich mit anderen über die eigenen Daten auszutauschen und den Datensatz zu beschreiben.
```{r 08_quiz_datentypen, echo=FALSE}
quiz(caption = "Fragen zu Datentypen",
question("Welches Merkmal hat einen kategorischen Datentyp im Datensatz aus der Abbildung?",
answer("Name", correct = TRUE),
answer("Alter"),
answer("Reaktionszeit"),
correct = "Richtig. Das Merkmal 'Name' enthält Text und ist daher eine klassische (nominale) kategorische Variable.",
incorrect = "Leider falsch. Kategorische Daten sind oftmals als Text oder Symbole kodiert.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Welches Merkmal hat einen diskreten numerischen Datentyp im Datensatz aus der Abbildung?",
answer("Name"),
answer("Alter", correct = TRUE),
answer("Reaktionszeit"),
correct = "Richtig. Das Merkmal 'Alter' ist klassischerweise eine diskrete numerische Variable, weil wir das Alter für gewöhnlich in ganzen Jahren (oder Tage/Monaten) angeben.",
incorrect = "Leider falsch. Diskrete numerische Daten sind als ganze Zahlen kodiert.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Welches Merkmal hat einen kontinuierlichen numerischen Datentyp im Datensatz aus der Abbildung?",
answer("Name"),
answer("Alter"),
answer("Reaktionszeit", correct=TRUE),
correct = "Richtig. Das Merkmal 'Reaktionszeit' wird in Sekunden gemessen und kann daher jeden beliebigen Wert annehmen und ist letztendlich nur durch die Genauigkeit der Messung begrenzt.",
incorrect = "Leider falsch. Kontinuierliche numerische Daten sind oftmals mit Kommazahlen kodiert.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
Jetzt, wo wir uns mit den Grundlagen von Daten auskennen, können wir zur eigentlichen Statistik kommen.
### **Einführung in die deskriptive Statistik**
Ein vorrangiges Ziel der **deskriptiven Statistik** oder beschreibenden Statistik ist es, mithilfe von **Kennzahlen** und grafischen Darstellungen (vorrangig Histogramme, lernt ihr in einer späteren Lektion) wesentliche Charakteristiken von Häufigkeitsverteilungen herauszuarbeiten. Eine **Häufigkeitsverteilung** ist eine Zusammenfassung der beobachteten Werte einer Variablen und gibt an, wie oft die verschiedenen Werte vorkommen. Die Häufigkeit kann dabei pro Merkmalsausprägung oder für Klassen angegeben werden, die mehrere Merkmalsausprägungen zusammenfassen (z.B. Alters- und Einkommensgruppen).
#### **Lageparameter**
Lageparameter dienen der Beantwortung der Frage, welche der in der Stichprobe vorkommenden Werte "typisch" oder "repräsentativ" sind. Dabei ist große Vorsicht geboten, diese Werte nicht überzuinterpretieren, da sie den gesamten Datensatz auf eine einzige Zahl reduzieren.
**Modus**: der häufigste Wert einer Variable (auch: Modalwert). Hierzu ermittelt man die häufigste (oder wahrscheinlichste) Beobachtung.
**Median**: der "wahre" Mittelpunkt einer Variable (50 % aller Beobachtungen sind kleiner und 50 % aller Beobachtungen sind größer als der Median). Hierzu sortiert man alle Beobachtungen und bestimmt dann die Beobachtung, die genau in der Mitte liegt.
**Arithmetisches Mittel**: Durchschnittswert einer Variable. Hierzu addiert man alle Einzelbeobachtungen und teilt anschließend durch die Anzahl der Beobachtungen.
Dass ein und dieselbe Verteilung (beispielsweise die Erhebung des Einkommens einer Stichprobe) ganz unterschiedliche Lagemaße haben kann, zeigt die folgende Abbildung.
<p>
<center>
![**Abbildung**: Schiefe vs. symmetrische Verteilungen. Quelle: Eigene Darstellung](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/Schiefe_Verteilungen.png?raw=true){#id .class width=100%}
</center>
</p>
```{r 08_quiz4, echo=FALSE}
quiz(caption = "Frage zu Lageparametern",
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet der Modus?"),
answer("0",),
answer("1", correct = TRUE),
answer("2", correct = TRUE),
answer("3"),
answer("4"),
correct = "Richtig! Diese Variable besitzt zwei häufigste Werte, 1 und 2.",
incorrect = "Leider falsch. Der Modus ist der häufigste Wert. Der Modus kann dabei auch mehrere Zahlen umfassen.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet der Median?"),
answer("0",),
answer("1"),
answer("2", correct = TRUE),
answer("3"),
answer("4"),
correct = "Richtig! Der Median lautet 2. Wenn wir die Werte sortieren, erhalten wir die Reihenfolge 0, 1, 1, 2, 2, 3, 4. Wir haben 7 Messwerte und der mittlere Wert ist der Wert an der Stelle 4, also der Messwert 2.",
incorrect = "Leider falsch. Der Median ist der mittlere Wert der geordneten Messreihe.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet der Mittelwert?"),
answer("0",),
answer("1"),
answer("2"),
answer("3"),
answer("4"),
answer("1,86", correct = TRUE),
correct = sprintf("Richtig! Der Mittelwert lautet 1,86. Dazu müssen zuerst alle Werte aufaddiert werden (=13), um anschließend durch die Anzahl der Messwerte (=7) geteilt zu werden. Wie wir sehen, ist der Mittelwert kein Wert, der in der Messung selber vorkommt, sondern ein fiktiver Wert."),
incorrect = "Leider falsch. Der Mittelwert ist die Summe aller Messwerte, geteilt durch die Anzahl der Messwerte.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Warum sind schiefe Verteilungen problematisch?",
answer("Eine Idee", correct = TRUE),
answer("Keine Idee"),
correct = "Schiefe Verteilungen sind problematisch, weil viele statistische Modelle und Berechnungen von einer symmetrischen Verteilung ausgehen, insbesondere davon, dass die Werte gleichmäßig um den Mittelwert herum verteilt sind. Ist eine Verteilung besonders 'schief', so hat sie entweder einen langen Schwanz (engl. tail) auf der linken oder rechten Seite, d.h., ganz viele Werte mit besonders kleinen oder großen Werten. Alleine schon der Mittelwert ist für solche Verteilungen problematisch, weil er nicht mehr wirklich repräsentativ ist (siehe Abbildung). Er befindet sich viel näher an den wenigen Extremwerten als am Großteil der Werte. Mithilfe von Transformationen kann man manchmal eine solche Verteilung wieder 'normalisieren', z.B. mithilfe des Logarithmus'.",
incorrect = "Macht nichts, einfach die andere Option wählen ;). Stell dir eine Gehaltsverteilung wie die obige in der Grafik vor: Welchen Wert würdest du für das durchschnittliche Gehalt nennen? Den Mittelwert oder den Median? Warum?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
#### **Streuungsparameter**
Streuungsparameter sollen das Aumaß der Streuung innerhalb des Datensatzes oder um einen Lageparameter herum beschreiben. So gibt beispielsweise die Standardabweichung einer Variable an, wie weit im Mittel die einzelnen Beobachtungen vom Mittelwert dieser Variable entfernt sind.
**Standardabweichung**: standardisiertes Maß für die Streuung um den Mittelwert in der selben Maßeinheit wie die Variable (auch: mittlere Abweichung).
**Varianz**: die quadrierte Standdardabweichung.
**Spannweite**: Differenz zwischen dem kleinsten Wert (**minimale Ausprägung**) einer Variablen und dem größten Wert (**maximale Ausprägung**) einer Variablen
**p-Quantil**: Der Wert, für den mindestens $p\cdot 100 \%$ der Beobachtungen kleiner oder gleich diesem Wert sind. Das 25%-Quantil ($p=25$) ist also der Wert, für den 25 % aller beobachteten Werte kleiner oder gleich diesem Wert sind.
**Interquartilsabstand**: Der Abstand zwischen dem 75%-Quantil und dem 25%-Quantil. Es ist sozusagen der Wertebereich, in den die mittleren 50 % der beobachteten Daten fallen.
In der nachfolgenden Abbildung wird verdeutlicht, wie der Median sowie das 25%-Quantil und 75%-Quantil für eine beispielhafte Messreihe ermittelt werden können.
<p>
<center>
![**Abbildung**: Bestimmung und Bedeutung von p-Quantilen. Quelle: Eigene Darstellung](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/Quantile.png?raw=true){#id .class width=100%}
</center>
</p>
```{r 08_quiz05, echo=FALSE}
quiz(caption = "Frage zu Streuungsparameter",
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet die Spannweite?"),
answer("0",),
answer("1"),
answer("2"),
answer("3"),
answer("4", correct = TRUE),
correct = sprintf("Richtig! Der größte Wert ist 4, der kleinste Wert ist 0, daher beträgt die Spannweite $4-0=4$."),
incorrect = "Leider falsch. Die Spannweite ist der Abstand zwischen dem größten und kleinsten Messweret.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Entspricht ein größerer IQR auch einer größeren Streuung/Varianz um den Median?",
answer("Ja", correct = TRUE),
answer("Nein"),
correct = "Richtig! Für den Mittelwert wäre die Sache nicht ganz so einfach, aber der Median liegt IMMER innerhalb des oberen und unteren Quartils (per Definition), daher bedeutet ein größerer IQR auch, dass die Werte (wenigstens am Rand) weiter vom Median entfert sind als bei einem kleineren IQR. Am Boxplot wird dies in einer späteren Lektion am besten ersichtlich.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Kann der Median durch Ausreißer (besonders große oder kleine Werte) verzerrt/beeinflusst werden?",
answer("Ja"),
answer("Nein", correct = TRUE),
correct = "Richtig! Der Median ergibt sich ja durch den mittleren Wert der geordneten Messreihe, d.h., zuerst werden alle Messwerte sortiert und dann wird der Wert in der Mitte herausgezogen. Dieser verändert sich nicht, wenn die Werte am Anfang der Reihe, oder am Ende, noch weiter ins Extreme verschoben werden. Daher sagt man auch, dass der Median ein robustes Lagemaß ist, da er gegenüber Ausreißern unempfindlich ist. Ganz anders als der Mittelwert, bei dem ja alle Werte durch die Aufsummierung in die Berechnung mit einfließen.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
### **Kausalität und Korrelation**<sup><a href="#section-quelle-3">3</a></sub>
Es gibt eine weitere statistische Größe, die uns wertvolle Aussagen zu den Daten liefern kann, die aber oftmals voreilig als Ursachenbeziehung interpretiert wird: die Korrelation. Die **Korrelation** ist ein Maß für den Zusammenhang zwischen zwei Variablen. Die häufigste Art der Korrelation nach **Pearson** misst einen **linearen Zusammenhang** (denke an eine gerade Linie durch die Datenpunkte) zwischen zwei Variablen und kann Werte zwischen $-1$ und $1$ annehmen.
Bei einer **positiven Korrelation** (Werte nahe $+1$) beobachten wir bei Zunahme einer Variable auch eine gewisse Zunahme in der anderen Variable: größere Häuser erzielen für gewöhnlich einen höheren Verkaufspreis. Bei einer **negativen Korrelation** (Werte nahe $-1$) beobachten wir bei Zunahme einer Variable eine Abnahme in der anderen: schwerere Autos besitzen in der Regel einen höheren Kraftstoffverbrauch und damit eine geringere Reichweite. Bei einer Korrelation nahe $0$ können wir keinen *linearen* Zusammenhang erkennen: Egal, was wir über eine Variable wissen, wir können keine Vorhersage über die Werte der andere Variable treffen (mit anderen Worten sagt uns der Wert einer Variable nichts über den Wert der anderen Variablen).
Korrelation kann sehr hilfreich, aber auch sehr trügerisch sein. Die erste wichtige Grundregel beim Umgang mit Korrelationen ist, dass es verschiedene Korrelationsmaße gibt. Einige messen nur einen linearen Zusammenhang (die Daten müssen mehr oder weniger gut auf einer geraden Linie liegen), andere (Rangkorrelationen) können auch nicht lineare Zusammenhänge erfassen. Das ist wichtig, weil eine Korrelation nahe 0 nicht bedeutet, dass es *keinen* Zusammenhang gibt, sondern oft nur, dass der Zusammenhang eben nicht *linear* ist. Man denke an den Zusammenhang zwischen Alter und der aufgenommenen Nahrungsmenge. Mit zunehmendem Alter steigt für gewöhnlich die Menge an Nahrung, die wir zu uns nehmen, an, bis sie ab einem gewissen Alter wieder zu sinken beginnt, weil der Körper nicht mehr so viel Energie benötigt.
Ein sehr wichtiger Spruch ist: **"Aus Korrelation folgt keine Kausalität"**. Zwei Variablen können miteinander korrelieren, sogar sehr stark, ohne dass die eine die andere verursacht oder hervorruft. Beispielsweise sind der Verkauf von Eis und die Anzahl der Haiangriffe im Sommer stark korreliert. Das bedeutet aber nicht, dass der Verkauf von Eis Haie anlockt, oder dass Opfer von Haiangriffen danach gerne ein Eis essen. Vielmehr gibt es eine dritte Variable, die beide beeinflusst: die Temperatur. Je wärmer es ist, desto mehr Eis wird verkauft und desto mehr Menschen gehen schwimmen. Die Schuhgröße korreliert positiv mit der Lesefähigkeit, aber größere Schuhe machen niemanden klüger. In Wahrheit sind beide über das Alter miteinander verbunden (man spricht daher beim Alter auch von einer **konfundierenden Variable**). Außerdem kann man auch rein [zufällige Korrelationen](https://tylervigen.com/spurious-correlations) finden, die absolut keine sinnvolle Erklärung haben dürften (oder Käsekonsum sagt wirklich eine Menge über uns aus).
Um solche Fehlschlüsse und Falschaussagen zu vermeiden, ist es wichtig, grundsätzlich so lange von keinerlei Kausalität auszugehen, bis diese durch ein Experiment belegt werden konnte. Kausale Zusammenhänge können nur durch kontrollierte Experimente bestätigt werden, nicht durch einfache statistische Kenngrößen.
### **Abschließendes Beispiel**
Zum Schluss betrachten wir einen Datensatz zum Auftreten von Nierenkrebs in den USA, gemessen als Anzahl der Fälle pro 100.000 Einwohner. Dabei stellt sich heraus, dass die höchsten Krebsraten in sehr ländlichen Bezirken auftreten, die über den Mittleren Westen, den Westen und den Süden des Landes verstreut sind. An dieser Stelle könnt ihr kurz innehalten und euch ein paar Gründe für diesen Befund überlegen.
Vielleicht vermutet ihr, dass für Menschen auf dem Land die medizinische Versorgung schlechter ist, oder dass sie sich ungesünder ernähren. Es ist leicht und für uns Menschen ganz natürlich, sich ein passendes Narrativ zu vermeindlichen Fakten aufzubauen, um diese zu erklären. Doch jetzt kommt der Haken: die niedrigsten Krebsraten in den USA treten ebenfalls in sehr ländlichen Bezirken auf, die über den Mittleren Westen, den Westen, und den Süden des Landes verstreut sind. Oftmals sogar in direkter Nachbarschaft zu den Bezirken mit den niedrigsten Raten (siehe nächste Abbildung)! Wie kann beides gleichzeitig war sein? Wie können zwei Bezirke mit ähnlicher Demographie so verschiedene Krebsraten haben? Jede Erklärung, die wir uns für den einen Fall zurecht legen, würde sicherlich auch teilweise auf die benachbarten Bezirke zutreffen. Also muss es eine andere Erklärung geben.
<p>
<center>
![**Abbildung**: US-Bezirke mit der niedrigsten (türkis) sowie der höchsten (rot) Nierenkrebsrate. Quelle: Wainer, H. ([2007](http://nsmn1.uh.edu/dgraur/niv/TheMostDangerousEquation.pdf))](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/kidney_cancer_map.png?raw=true){#id .class width=100%}
</center>
</p>
Und die gibt es in der Tat: Die geringe Bevölkerungsdichte in den Bezirken sorgt für eine hohe Streuung (Varianz) in den Krebsraten. Nehmen wir zwei Bezirke in ländlicher Gegend, Bezirk A und Bezirk B, mit je 1000 Einwohnern. Bezirk A hat keine Krebsfälle, daher ist die Krebsrate 0. Bezirk B hat einen einzigen Krebsfall, doch die Krebsrate steigt dadurch sofort auf 100, da die Krebsrate ja pro 100.000 Bewohnern gemessen wird. 100 ist aber extrem hoch, sogar die höchste Rate im ganzen Land! Wenn wir uns dagegen die großen Städte wie New York mit Millionen von Einwohnern ansehen, würde ein einziger weiterer Krebsfall, sagen wir von 75 auf 76 Krebsfälle, die Rate kaum merklich verändern: Sie würde von $0,9375$ auf $0,95$ ansteigen.
Die nachfolgende Abbildung fasst die Ergebnisse für die US-Bezirke zusammen. Die weniger dicht besiedelten Bezirke auf der linken Seite der Abbildung weisen eine deutlich höhere Varianz in der Krebsrate auf. Zudem treten sowohl die höchsten als auch die niedrigsten Krebsraten in dieser Gruppe auf. Mit steigender Bevölkerungsdichte (je mehr wir uns auf der x-Achse nach rechts bewegen) sinkt die Varianz und wir können eine Stabilisierung um den Wert 5 herum erkennen. Was sollten wir aus diesem Beispiel mitnehmen? **Kleine Stichprobengrößen können zu extremen Ergebnissen führen**.
<p>
<center>
![**Abbildung**: Wenn man die altersbereinigten Nierenkrebsraten in den US-amerikanischen Bundesstaaten gegen den Logarithmus der Bezirksbevölkerung aufträgt, wird die Verringerung der Variation mit der Bevölkerung deutlich. Quelle: Wainer, H. ([2007](http://nsmn1.uh.edu/dgraur/niv/TheMostDangerousEquation.pdf))](https://github.com/CorrelAid/lernplattform/blob/main/abbildungen/08_grundlagen-der-statistik/kidney_cancer_rates.png?raw=true){#id .class width=50% height=50%}
</center>
</p>
### **Und jetzt Ihr**
Zum Abschluss dieser Lerneinheit dürft ihr nun auch noch einmal Daten interpretieren. Schaut euch dazu bitte die folgende Grafik zu [Militärausgaben im Ländervergleich 2003 - 2017](https://www.hfh-fernstudium.de/statistik-app/daten/militaer.html):
- Startet mit den Zeitreihen, sucht euch drei Länder aus und vergleicht die Ausgaben in 'absoluten' Werten, 'in % BIP' und 'pro Kopf'. Was verändert sich? Warum?
- Wechselt nun zur Darstellung 'Boxplots'. Was wird hier dargestellt, welche Dimensionen werden verglichen? Was fällt bei der Darstellung der Ausgaben in absoluten Werten auf? Geht nun auf 'pro Kopf'. Was fällt beim Vergleich der Boxplots über die Jahre auf? Was fällt beim Vergleich der Ausreißer auf?
- Wechselt nun zur Darstellung 'Säulendiagramme'. Was wird hier dargestellt, welche Dimensionen werden verglichen? Was fällt auf, wenn ihr 'in % BIP' und 'pro Kopf' vergleicht?
Die zweite Übung behandelt noch einmal die Korrelation. Öffnet dazu bitte diese [Seite](https://www.hfh-fernstudium.de/statistik-app/korrelation.html):
- Erzeugt Beispiele für eine hohe positive Korrelation ($r > +0.8$) und eine hohe negative Korrelation ($r < -0.8$).
- Wenn ihr ein Beispiel für eine hohe Korrelation erzeugt habt, wechselt auf 'Punkte verschieben' und verändert einen Datenpunkt. Wie ändert sich die Korrelation $r$? Warum?
- Erzeugt Beispiele für eine schwache Korrelation ($|r| < 0.2$).
- Erzeugt nun ein Beispiel für einen Zusammenhang, der mit dem Auge sichtbar ist, aber dennoch laut Berechnung ($r$-Wert) keine oder nur eine geringe Korrelation aufweist. Woran liegt das?
### **Quellen**
- <span id="quelle-1">[1]</span> Data-Literacy-Charta. (n.d.). Stifterverband.org. Retrieved February 14, 2024, from <https://www.stifterverband.org/charta-data-literacy>.
- <span id="quelle-2">[2]</span> Mittag, H.-J., & Schüller, K. (2020). Statistik: Eine Einführung mit interaktiven Elementen. Springer Berlin Heidelberg.
- <span id="quelle-3">[3]</span> Gutman, A. J., & Goldmeier, J. (2022). Werde ein Data Head: Data Science, Machine Learning und Statistik verstehen und datenintensive Jobs meistern.
### **Zusätzliche Ressourcen**
- [Destatis - Statistisches Bundesamt](https://www.destatis.de/DE/Home/_inhalt.html)
- [KI Campus](https://ki-campus.org/)
- [https://systats.github.io/](https://systats.github.io/linear_model/index.html)
- [Werde ein Data Head](https://dpunkt.de/produkt/werde-ein-data-head/)
- [Statistik: Eine Einführung mit interaktiven Elementen.](https://link.springer.com/book/10.1007/978-3-662-61912-4)