-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy path03_grundlagen-der-statistik.Rmd
411 lines (301 loc) · 23.5 KB
/
03_grundlagen-der-statistik.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
---
title: "Grundlagen der Statistik"
author: CorrelAid e.V.
date: "`r Sys.Date()`"
authors:
- Michael Aydinbas
- Zoé Wolter
- Jonas Lorenz
- Nina Hauser
output:
html_document:
toc: true
toc_depth: 2
toc_float: true
theme: flatly
css: www/style.css
includes:
after_body: ./www/favicon.html
language: de
runtime: shiny_prerendered
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE, message = FALSE, warning = FALSE)
library(learnr)
library(gradethis)
library(ggplot2)
source("R/setup/gradethis-setup.R")
source("R/setup/tutorial-setup.R")
# Read app parameters
params <- yaml::yaml.load_file("www/app_parameters.yml")
# Benötigte Daten laden
source("R/setup/functions.R")
z <- get_z()
```
```{r results='asis'}
cat(get_license_note(rmarkdown::metadata$title, rmarkdown::metadata$authors))
```
# **Datenkompetenz (Data Literacy)**
Im digitalen Zeitalter ist der **kompetente Umgang mit Daten** eine essenzielle Fähigkeit, die zahlreiche Lebensbereiche beeinflusst – von gesellschaftlicher Teilhabe über Klima- und Umweltschutz bis hin zu wirtschaftlicher und politischer Entscheidungsfindung. Data Literacy umfasst die Fähigkeit, Daten **kritisch zu sammeln, zu verwalten, zu bewerten und anzuwenden**.
Die Statistik spielt dabei eine zentrale Rolle in allen Phasen der Datenarbeit: von der **Planung und Durchführung der Datenerhebung** über die **Analyse und Interpretation** bis hin zur **fundierten Entscheidungsfindung**.
## **Zentrale Fragen**
Vier zentrale Fragen sollten stets berücksichtigt werden, wenn Daten Entscheidungsprozesse unterstützen sollen:
- **Was will ich mit Daten machen?** Datenanalysen verfolgen immer konkrete Ziele.
- **Was kann ich mit Daten machen?** Die Qualität der Datenquellen sowie methodische und technische Rahmenbedingungen setzen Grenzen.
- **Was darf ich mit Daten machen?** Datenschutz und Urheberrechte bestimmen die rechtlichen Vorgaben.
- **Was soll ich mit Daten machen?** Der verantwortungsvolle Umgang erfordert die Orientierung am Gemeinwohl.
----
# **Einführung in die Statistik**
Statistische Informationen prägen viele Lebensbereiche und unterstützen fundierte Entscheidungen. Täglich begegnen wir Daten und Visualisierungen in Medien und Fachartikeln. Benutzerfreundliche Präsentationen, wie die [interaktive Bevölkerungsvorausberechnung](https://service.destatis.de/bevoelkerungspyramide/){target="_blank"} des Statistischen Bundesamts, erleichtern den Zugang und das Verständnis komplexer Daten.
## **Statistische Grundbegriffe**
\
*(bis Minute 10:57, abgerufen Januar 2025)*
In der Statistik bezeichnet man die untersuchten Objekte als **statistische Einheiten** oder **Merkmalsträger:innen**. Die Gesamtheit dieser bildet die **Grundgesamtheit (Population)** und muss klar definiert sein.
- **Merkmale (Variablen):** Eigenschaften der Merkmalsträger:innen, z.B. Alter oder Familienstand.
- **Merkmalsausprägungen:** Mögliche Werte eines Merkmals, z.B. „ledig“ oder „verheiratet“.
- **Stichprobe:** Eine Teilmenge der Grundgesamtheit, ausgewählt durch ein **Auswahlverfahren (Sampling)**.
## **Aufgaben der Statistik**
Die Statistik untersucht Daten systematisch und erfüllt zentrale Aufgaben:
- **Datensammlung:** Entwicklung verlässlicher Erhebungsverfahren (z.B. Umfragen).
- **Datenorganisation:** Strukturierung für verständliche und zugängliche Speicherung.
- **Datenanalyse:** Erkennung von Mustern und Beziehungen mithilfe mathematischer und grafischer Methoden.
- **Dateninterpretation:** Ableitung von Erkenntnissen und Schlussfolgerungen.
- **Datenpräsentation:** Verständliche Aufbereitung in Diagrammen, Tabellen oder Berichten.
Ziel ist es, Daten nutzbar zu machen – zur Entscheidungsfindung, Hypothesenprüfung oder Ergebnisdarstellung.
## **Teilbereiche der Statistik**
### **Beschreibende Statistik (Deskriptive Statistik)**
Die **beschreibende Statistik** dient der übersichtlichen Darstellung und Zusammenfassung großer Datenmengen bei minimalem Informationsverlust.
- **Ziel:** Reduktion komplexer Datensätze auf zentrale Kenngrößen.
- **Methoden:** Tabellen, Diagramme, Mittelwerte, Median, Varianz.
- **Beispiel:** Vergleich durchschnittlicher Temperaturen oder Unternehmensgewinne.
Weitere Teilbereiche der Statistik sind:
- **Explorative Datenanalyse:** Sucht ohne feste Hypothesen nach Mustern und Anomalien.
- **Schließende Statistik:** Erlaubt Rückschlüsse von Stichproben auf die Grundgesamtheit und überprüft Hypothesen.
In diesem Kurs liegt der Schwerpunkt auf der beschreibenden Statistik als Grundlage für den Einstieg in die Datenanalyse.
----
# **Grundlagen: Daten**
## **Informationen und Daten**
Eine **Information** ist abgeleitetes Wissen, das wir durch geeignete **Kodierung** anderen vermitteln und speichern. Diese kodierten Informationen nennen wir **Daten**. Da Informationen unterschiedlich kodiert werden können (z. B. verschiedene Einheiten oder Skalen), ist eine verständliche Kodierung entscheidend, um die enthaltenen Informationen nutzbar zu machen.
### **Der Datensatz**
Ein Datensatz ist eine Tabelle, die kodierte Informationen enthält:
- **Zeilen (Beobachtungen, Records):** Zusammenhängende Informationseinheiten, z. B. Messungen oder Aufzeichnungen.
- **Spalten (Merkmale, Variablen):** Eigenschaften, die für alle Zeilen einheitlich kodiert sind, z. B. Alter oder Größe.
- **Datenpunkte:** Zellen, die den Schnittpunkt zwischen einer Beobachtung und einem Merkmal darstellen.
- **Kopfzeile (Header):** Beschreibt die Merkmale des Datensatzes.
Ein Datensatz mit *N* Beobachtungen und *Y* Merkmalen wird durch seine **Dimension (Komplexität)** charakterisiert. Somit ist ein Datensatz also eine strukturierte Sammlung von Daten, die Informationen leicht vergleichbar und analysierbar machen.
Die nachfolgende Abbildung stellt alle Begriffe dieses Abschnittes noch einmal übersichtlich zusammen.
<p>
<center>
{.class width="100%"}
</center>
</p>
```{r 08_quiz_datensatz, echo=FALSE}
quiz(caption = "",
question("Wie viele Merkmale hat der Datensatz aus der Abbildung?",
answer("2"),
answer("3", correct = TRUE),
answer("4"),
answer("5"),
correct = "Richtig. Anhand der Anzahl der Spalten können wir feststellen, dass der Datensatz folgende drei Merkmale hat: 'Name', 'Alter' und 'Reaktionszeit'. Etwas gemein: Die Spalte 'Index' wird automatisch für uns erzeugt und ist daher kein Merkmal im eigentlichen Sinne.",
incorrect = "Leider falsch. Die Anzahl der Merkmale ergeben sich aus der Anzahl der Spalten unseres Datensatzes. Tipp: Eine der Spalten enthält kein Merkmal im eigentlichen Sinne, da diese automatisch für uns erzeugt wird - welche könnte das sein?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Wie viele Beobachtungen hat der Datensatz aus der Abbildung?",
answer("2"),
answer("3"),
answer("4", correct = TRUE),
answer("5"),
correct = "Richtig. Anhand der Anzahl der Zeilen können wir feststellen, dass der Datensatz vier Beobachtungen hat, schließlich gibt es vier Zeilen mit Werten und wie wir wissen: Jede Zeile ist eine Beobachtung/Messung.",
incorrect = "Leider falsch. Die Anzahl der Beobachtungen ergeben sich aus der Anzahl der Spalten unseres Datensatzes - zähle also nochmal ganz genau die Zeilen in der Tabelle.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Wie lauten die Dimensionen des Datensatzes aus der Abbildung?",
answer("4x4"),
answer("4x3", correct = TRUE),
answer("3x4"),
answer("3x3"),
correct = sprintf("Richtig. Die Dimension eines Datensatzes wird angegeben als Anzahl Zeilen $\\times$ Anzahl Spalten, daher ist die richtige Antwort $4 \\times 3$"),
incorrect = "Leider falsch. Die Dimension eines Datensatzes wird angegeben als Anzahl Zeilen $\\times$ Anzahl Spalten.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
## **Datentypen**
Je nach Kodierung unterscheiden wir zwischen **numerischen** und **kategorischen** Daten.
### **Numerische Daten**
Daten, die als Zahlen ausgedrückt werden, unterteilen sich in:
- **Kontinuierliche Daten:** Können jeden Wert innerhalb eines Bereichs annehmen, z. B. Temperatur ($29\ °C$, $28,6425\ °C$) oder Niederschlagsmenge.
- **Diskrete Daten:** Sind auf ganze Zahlen beschränkt, z. B. Anzahl der Kinder (0, 1, 2) oder Tore in einem Spiel.
Numerische Daten sind zentral für die Analyse, da sie präzise Messungen und Vergleiche ermöglichen.
<p>
<center>
{.class width="100%"}
</center>
</p>
### **Kategorische Daten**
Kategorische Daten werden mit Worten oder Symbolen ausgedrückt, können aber auch numerisch kodiert sein (z. B. Postleitzahlen). Sie unterteilen sich in:
- **Ordinale Daten:** Werte mit natürlicher Reihenfolge, aber ohne gleichmäßige Abstände, z.B. Schulnoten (1 > 2), Umfragewerte (Skala 1–10), Kleidergrößen (S, M, L). Diese Daten erlauben **Vergleiche** (größer/kleiner), jedoch keine präzisen Berechnungen.
- **Nominale Daten:** Werte ohne natürliche Reihenfolge oder Rangfolge , z.B. Farben (Rot, Blau), Geschlechter (männlich, weiblich, divers). Sie dienen der **Klassifikation**, erlauben jedoch keine arithmetischen Operationen.
Kategorische Daten sind entscheidend für qualitative Analysen und Klassifizierungen.
<p>
<center>
{.class width="100%"}
</center>
</p>
```{r 08_quiz_datentypen, echo=FALSE}
quiz(caption = "",
question("In welche Kategorie von Datentypen fallen Schulnoten (1, 2, 3, usw.)?",
answer("Kontinuierliche Daten."),
answer("Diskrete Daten."),
answer("Ordinale Daten", correct = TRUE),
answer("Nominale Daten."),
correct = "Richtig! Schulnoten sind ein Beispiel für ordinale Daten, da sie eine natürliche Reihenfolge haben, aber der Abstand zwischen den Noten nicht unbedingt gleich groß ist.",
incorrect = "Leider falsch. Schulnoten sind ordinale Daten, da sie eine natürliche Reihenfolge haben. Sie sind nicht kontinuierlich oder nominal, da die Abstände zwischen den Noten nicht gleich sind und sie eine Reihenfolge ausdrücken.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Welche der folgenden Aussagen beschreibt das nominale Skalenniveau korrekt?",
answer("Werte können geordnet werden."),
answer("Werte können in Kategorien eingeteilt werden.", correct = TRUE),
answer("Der Abstand zwischen den Werten ist interpretierbar."),
answer("Werte haben eine natürliche Reihenfolge."),
correct = "Richtig. Nominalskalierte Werte dürfen wir ausschließlich in Kategorien einteilen. Somit können wir lediglich Unterschiede zwischen den Variablen feststellen. Aussagen über eine Rangordung oder die Bedeutung der Unterschiede dürfen wir allerdings nicht treffen.",
incorrect = "Leider falsch. Schau' noch einmal weiter oben nach: bei nominalskalierten Werten, dürfen wir diese lediglich in Kategorien einteilen. Somit können wir zwar feststellen, dass es unterschiede zwischen den Variablen gibt. Aussagen über eine Rangordung oder die Bedeutung der Unterschiede dürfen wir allerdings nicht treffen.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Welches Merkmal hat einen kontinuierlichen numerischen Datentyp im Datensatz aus der Abbildung?",
answer("Name"),
answer("Alter"),
answer("Reaktionszeit", correct=TRUE),
correct = "Richtig. Das Merkmal 'Reaktionszeit' wird in Sekunden gemessen und kann daher jeden beliebigen Wert annehmen und ist letztendlich nur durch die Genauigkeit der Messung begrenzt.",
incorrect = "Leider falsch. Kontinuierliche numerische Daten sind oftmals mit Kommazahlen kodiert.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
Jetzt sind wir mit den Grundlagen von Daten vertraut:
Wir kennen den Unterschied zwischen **Informationen und Daten**, verstehen den Aufbau eines **Datensatzes** und wissen, welche **Datentypen und Skalenniveaus** existieren.
Mit diesem Wissen können wir nun in die eigentliche Statistik einsteigen!
----
# **Deskriptive Statistik: Einführung**
Die **Herausarbeitung wesentlicher Charakteristika von Häufigkeitsverteilungen** ist ein zentrales Ziel der deskriptiven Statistik. Mithilfe von **Kennzahlen und grafischen Darstellungen** werden Häufigkeitsverteilungen analysiert, um zu verstehen, wie oft bestimmte Werte auftreten. Diese können pro Merkmalsausprägung oder für Klassen (z. B. Altersgruppen) angegeben werden.
## **Lageparameter**
Lageparameter helfen, “typische” oder “repräsentative” Werte einer Variable zu bestimmen, reduzieren jedoch den Datensatz auf eine einzige Zahl.
### **Wichtige Lageparameter**
- **Modus (Modelwert):** Häufigster Wert einer Variable.
- **Median:** Wert, bei dem 50 % der Beobachtungen kleiner und 50 % größer sind. Bei einer geraden Anzahl wird der Mittelwert der beiden mittleren Werte berechnet.
- **Arithmetisches Mittel (Mittelwert):** Durchschnittswert, berechnet durch Summe aller Beobachtungen geteilt durch deren Anzahl.
Die Lageparameter können für dieselbe Verteilung (z. B. Einkommen) unterschiedlich ausfallen, wie die folgende Abbildung zeigt.
<p>
<center>
{.class width="100%"}
</center>
</p>
```{r 08_quiz4, echo=FALSE}
quiz(caption = "",
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet der Modus?"),
answer("0",),
answer("1", correct = TRUE),
answer("2", correct = TRUE),
answer("3"),
answer("4"),
correct = "Richtig! Der Modus ist der Wert, die am häufigsten vorkommt. In diesem Fall besitzt die Variable zwei häufigste Werte: 1 und 2.",
incorrect = "Leider falsch. Der Modus ist der Wert, der am häufigsten vorkommt. Tipp: Der Modus kann dabei auch mehrere Zahlen umfassen.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet der Median?"),
answer("0",),
answer("1"),
answer("2", correct = TRUE),
answer("3"),
answer("4"),
correct = 'Richtig! Der Median ist der "wahre" Mittelpunkt einer Variable und trennt die unteren 50 % der Ausprägungen von den oberen 50 % der Ausprägungen. Wenn wir die Werte der Größe nach sortieren, erhalten wir die Reihenfolge 0, 1, 1, 2, 2, 3, 4. Wir haben 7 Messwerte womit der vierte Messwert die obere und untere Hälfte unserer Verteilung trennt, also hat der Median in diesem Fall den Wert 2.',
incorrect = 'Leider falsch. Der Median ist der "wahre" Mittelpunkt einer Variable und trennt die unteren 50 % der Ausprägungen von den oberen 50 % der Ausprägungen. Tipp: Zur Bestimmung des Medians musst Du die Ausprägungen der Variable der Größe nach sortieren.',
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet der Mittelwert?"),
answer("0,73",),
answer("1,45"),
answer("1,86", correct = TRUE),
answer("3"),
answer("4"),
correct = sprintf("Richtig! Der Mittelwert ist das, was wir häufig als den 'Durchschnitt' bezeichnen. Zur Berechnung müssen zuerst alle Werte aufaddiert werden (= 13), und anschließend durch die Anzahl der Messwerte (= 7) geteilt werden. In diesem Fall beträgt der Mittelwert 1,86. Wie wir sehen, ist der Mittelwert kein Wert, der selbst in der Messung vorkommt, sondern ein fiktiver Wert."),
incorrect = "Leider falsch. Der Mittelwert ist das, was wir häufig als Durchschnitt bezeichnen. Zur Berechnung müssen zunächst alle Werte aufsummiert und anschließend durch die Anzahl der Messwerte geteilt werden.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
## **Streuungsparameter**
Streuungsparameter messen die **Heterogenität** oder **Unterschiedlichkeit** von Daten. Sie zeigen, wie stark die Daten um das “Zentrum” verteilt sind.
### **Wichtige Streuungsparameter**
- **Standardabweichung:** Maß für die Streuung der Beobachtungen um den Mittelwert, angegeben in derselben Maßeinheit wie die Variable.
- **Varianz:** Quadratische Standardabweichung, hat eine andere Dimension als die Ausgangswerte.
- **Spannweite (Range):** Differenz zwischen Minimum und Maximum, berücksichtigt nur die Extremwerte.
- **p-Quantil:** Wert, für den mindestens $p \cdot 100\%$ der Beobachtungen kleiner oder gleich diesem Wert sind (z. B. 25%-Quantil).
- **Interquartilsabstand (IQR):** Abstand zwischen 75%- und 25%-Quantil, umfasst die mittleren 50 % der Daten.
```{r 08_quiz05, echo=FALSE}
quiz(caption = "",
question(sprintf("Gegeben sei die folgende Variable metrischen Messniveaus mit folgenden Ausprägungen: $x = [0, 1, 2, 4, 3, 1, 2]$. Wie lautet die Spannweite?"),
answer("0",),
answer("1"),
answer("2"),
answer("3"),
answer("4", correct = TRUE),
correct = sprintf("Richtig! Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten Messwert. In diesem Fall ist der größte Wert 4, der kleinste Wert 0 - daher beträgt die Spannweite $4-0=4$."),
incorrect = "Leider falsch. Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten Messwert.",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
),
question("Kann der Median durch sogenannte 'Ausreißer' (besonders große oder kleine Werte) verzerrt/beeinflusst werden?",
answer("Ja, zur Bestimmung des Medians müssen alle Werte berücksichtigt werden."),
answer("Nein, zur Bestimmung des Medians ist lediglich die Anzahl der Werte relevant. Ob die Werte an den Rändern der Verteilung besonders hoch oder niedrig ist ist dabei egal.", correct = TRUE),
correct = "Richtig! Der Median ist unabhängig von den einzelnen Merkmalsausprägungen. Er ergibt sich lediglich aus der Anzahl der Werte innerhalb der geordneten Reihenfolge von Beobachtungen: Zuerst werden alle Messwerte sortiert und dann wird der mittlere Wert in der Mitte bestimmt. Dieser verändert sich nicht, wenn die Werte am Anfang der Reihe, oder am Ende, noch weiter ins Extreme verschoben werden. Daher sagt man auch, dass der Median ein 'robustes Lagemaß' ist, da er gegenüber Ausreißern unempfindlich ist. Ganz anders als der Mittelwert, bei dem ja alle Werte durch die Aufsummierung in die Berechnung mit einfließen.",
incorrect = "Leider falsch. Der Median ist der mittlere Wert innerhalb der geordneten Reihenfolger von Beobachtungen. Ausreißer sind besonders große oder kleine Werte und befinden sich somit am Rand unserer Verteilung - haben diese Werte einen Einfluss auf den Median?",
allow_retry = TRUE,
try_again_button = "Nochmal versuchen"
)
)
```
## **Korrelation und Kausalität**
Die **Korrelation** misst den Zusammenhang zwischen zwei Variablen. Die häufigste Art, die Pearson-Korrelation, untersucht lineare Zusammenhänge und nimmt Werte zwischen $-1$ und $1$ an:
- **Positive Korrelation** (nahe $+1$): Beide Variablen nehmen gleichzeitig zu (z. B. größere Häuser erzielen höhere Verkaufspreise).
- **Negative Korrelation** (nahe $-1$): Eine Variable nimmt zu, während die andere abnimmt (z. B. schwerere Autos haben geringere Reichweiten).
- **Keine Korrelation** (nahe $0$): Kein erkennbarer linearer Zusammenhang.
### **Grundregeln für Korrelationen**
1. **Korrelationsmaß wählen:** Nicht alle Maße erfassen nicht-lineare Zusammenhänge. Eine Korrelation nahe $0$ bedeutet nicht, dass kein Zusammenhang besteht – nur, dass er nicht linear ist (z. B. Nahrungsmenge und Alter).
2. **Korrelation ≠ Kausalität:** Eine Korrelation bedeutet nicht, dass eine Variable die andere verursacht.
### **Was ist Kausalität?**
Kausalität beschreibt eine **Ursache-Wirkungs-Beziehung** zwischen Variablen, bei der eine Veränderung in der Ursache direkt eine Veränderung in der Wirkung hervorruft. Diese Beziehung kann durch Experimente oder durch Ausschluss von Alternativerklärungen nachgewiesen werden.
#### Beispiele für Trugschlüsse:
- **Eisverkauf und Haiangriffe:** Beide korrelieren, weil eine Drittvariable (Temperatur) sie beeinflusst.
- **Schuhgröße und Lesefähigkeit:** Die Konfundierungsvariable „Alter“ erklärt den Zusammenhang.
- **Zufällige Korrelationen:** Manche Zusammenhänge (z. B. Käsekonsum und Aktienmarkt) sind rein zufällig ([Beispiele hier](https://tylervigen.com/spurious-correlations)).
----
# **Und jetzt Ihr!**
Um die ganzen Fachbegriffe jetzt einmal zu sortieren und praktisch anzuwenden, haben wir Euch eine Übungsaufgabe vorbereitet! Ihr findet das Dokument im entsprechenden Slack-Channel zum Kurs [**#rlernen-der-datenkurs-für-die-zivilgesellschaft-2025-1**](https://correlaid.slack.com/archives/C087Z8VV93M). In der Aufgabe soll es darum gehen, die verschiedenen Lage- und Streuungsmaße, sowie die beiden Begriffe *Korrelation* und *Kausalität* noch einmal voneinander zu unterscheiden.
Wenn es bei der Bearbeitung der Aufgabe technische Probleme gibt, meldet Euch gerne über Slack bei uns. Für inhaltliche Fragen rund um die Grundlagen der Statistik ist dann in der Live-Session am Freitag ausreichend Zeit!
----
# **Quellen**
- [[1]]{#quelle-1} Data-Literacy-Charta. (n.d.). Stifterverband.org. Retrieved February 14, 2024, from <https://www.stifterverband.org/charta-data-literacy>.
- [[2]]{#quelle-2} Mittag, H.-J., & Schüller, K. (2020). Statistik: Eine Einführung mit interaktiven Elementen. Springer Berlin Heidelberg.
- [[3]]{#quelle-3} Gutman, A. J., & Goldmeier, J. (2022). Werde ein Data Head: Data Science, Machine Learning und Statistik verstehen und datenintensive Jobs meistern.
----
# **Zusätzliche Ressourcen**
- [Deskriptive Statistik - Grundlagen - Methoden - Beispiele - Aufgaben](https://link.springer.com/book/10.1007/978-3-658-13640-6)
- [Statistik: Eine Einführung mit interaktiven Elementen.](https://link.springer.com/book/10.1007/978-3-662-61912-4)
- [Grundlagen der Datenanalyse mit R](https://link.springer.com/book/10.1007/978-3-662-61736-6)
- [Data Litercy bei CorrelAid: Der Grundkurs für zivilgesellschaftliche Organisationen](https://www.correlaid.org/bildung/grundkurs-daten/)
- [Destatis - Statistisches Bundesamt](https://www.destatis.de/DE/Home/_inhalt.html)
- [KI Campus](https://ki-campus.org/)
- [https://systats.github.io/](https://systats.github.io/linear_model/index.html)
- [Werde ein Data Head](https://dpunkt.de/produkt/werde-ein-data-head/)
----
<a class="btn btn-primary btn-back-to-main" href=`r params$links$end_session`>Session beenden</a>