This repository has been archived by the owner on Dec 22, 2024. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 6
/
Copy pathaux-Regressao_Coeficientes.Rmd
81 lines (58 loc) · 3.16 KB
/
aux-Regressao_Coeficientes.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
---
title: "Coeficientes de uma Regressão"
description: "Diferenças entre Coeficientes Padronizados vs Brutos"
author:
- name: Jose Storopoli
url: https://scholar.google.com/citations?user=xGU7H1QAAAAJ&hl=en
affiliation: UNINOVE
affiliation_url: https://www.uninove.br
orcid_id: 0000-0002-0559-5176
date: August 1, 2021
citation_url: https://storopoli.github.io/Estatistica-Bayesiana/aux-Regressao_Coeficientes.html
slug: storopoli2021regressaocoeficientesR
bibliography: bib/bibliografia.bib
csl: bib/apa.csl
---
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
<link rel="stylesheet" href="https://cdn.rawgit.com/jpswalsh/academicons/master/css/academicons.min.css"/>
Em tabelas de regressão temos geralmente temos duas opções de como reportar os coeficientes:
* **Coeficientes Brutos**: não há transformações e as associações das variáveis independentes/controles (covariáveis) com a dependente são reportadas em suas medidas *originais*. **Exemplo**: A cada 1 unidades de aumento de $x$, $y$ aumenta 0.45.
* **Coeficientes Padronizados**: os coeficientes são transformados para expressarem as associações das variáveis independentes/controles (covariáveis) com a dependente em relação à variação dos seus *desvios padrões*. **Exemplo**: A cada 1 desvio padrão de variação positiva de $x$, $y$ possui variação de 0.1 desvio padrão.
## Simulação
Para explicar melhor esses conceitos, simularemos alguns dados:
* $x$: 1.000 observações amostradas de uma distribuição normal com média $1$ e desvio padrão $0.1$. $x \sim \text{Normal} (1, 0.1)$
* $y$: uma combinação linear de $100x$ com uma constante e um erro pequeno normalmente distribuído. $y = 10 + 100x + \epsilon$ e $\epsilon \sim \mathcal{N} (0, 1)$.
```{r simulation}
N <- 1000
x <- rnorm(N, 1, 0.1)
error <- rnorm(N, 0, 1)
y <- rep(10, N) + (100 * x) + error
df <- data.frame(x, y)
```
Observem os dados com o pacote `skimr` [@skimr] usando a função `skim()`:
```{r skimr}
library(skimr)
skim(df)
```
### Média e Desvio Padrões
Prestem atenção:
* $x$: média `r mean(df$x)`, desvio padrão `r sd(df$x)`
* $y$: média `r mean(df$y)`, desvio padrão `r sd(df$y)`
### Coeficientes Brutos vs Padronizados
Agora vamos executar uma regressão^[estou rodando uma regressão simples frequentista pois o foco não é a robustez da inferência mas apenas uma mera exemplificação de como interpretar coeficientes.] e mostrar coeficientes tanto como brutos, assim como padronizados:
```{r linear_models}
library(lm.beta)
model <- lm.beta(lm(y ~ x, df))
summary(model)
```
Ambas colunas o output de `summary()` mostram a mesma coisa:
* **Coluna não padronizada `Estimate`**: a cada 1 unidade que $x$ aumenta, $y$ aumenta `r model$coefficients[2]`
* **Coluna padronizada `Standardized`**: a cada 1 desvio padrão de $x$ de incremento (dp = `r sd(df$x)`), há um aumento de `r model$standardized.coefficients[2]` desvio padrão de $y$ (`r model$standardized.coefficients[2] * sd(df$y)`). Um total de `r model$standardized.coefficients[2] * sd(df$y) / sd(df$x)`.
$\big( \frac{0.955 * \operatorname{sd}_y}{\operatorname{sd}_x}\big)$
## Ambiente
```{r SessionInfo}
sessionInfo()
```