proyecto.Rmd

---
title: "Banco"
author: "Carlos, Alberto, Juan RamÃ³n"
date: "23/11/2020"
output:
  html_document:
    df_print: paged
  word_document: default
---
# ANÃLISIS EXPLORATORIO VARIABLES
```{r setup, include=FALSE}
library(readr)
library(dplyr)
library(ggplot2)
library(gmodels)
library(Hmisc)
library(moments)
library(gridExtra)
library(vcdExtra)
library(Hmisc)
```

## Importamos nuestro dataset
```{r}
data = read_csv("BankCustomerdata")
```

```{r}
nrow(data)
```


Dividimos el dataset original en el conjunto de **train** y **test**.

```{r}
n = nrow(data)
trainIndex = sample(1:n, size = round(0.8*n), replace=FALSE)
train = data[trainIndex ,]
test = data[-trainIndex ,]
```

```{r}
nrow(train)
```
```{r}
nrow(test)
```

```{r, message=FALSE}
ftable(train$term_deposit)
```


```{r, message=FALSE}
ftable(train$term_deposit)
```

Observamos su estructura y un resumen de las principales variables

```{r}
summary(train)
describe(train)
```
### VARIABLE AGE

La variable age es una variable cuantitativa situada en la escala de proporciÃ³n. Dicha variable indica la edad del cliente.

```{r}
summary(train$age)
```

De los estadÃ­sticos bÃ¡sicos podemos ver que se necesita ser menor de edad para contratar el producto.

Observando las medidas de dispersiÃ³n:

```{r}
var(train$age)
```

```{r}
sd(train$age)
```

```{r}
describe(train$age)
```

Mostramos la distribuciÃ³n de la variable:

```{r, message=FALSE}
ggplot(train, aes(x = age)) +
  geom_histogram(fill="skyblue2", colour="white") + geom_density(alpha = .3) +
  ggtitle('Edad del cliente')
```

```{r, message=FALSE}
ggplot(train, aes(x = age)) +
  geom_density(alpha = .3) +
  ggtitle('KDE de la edad del cliente')
```

Encontramos que el grueso de clientes se encuentra entorno a la mediana, de 39 aÃ±os. Observamos tambiÃ©n que cerca de los 62 aÃ±os se produce un descenso considerable de los clientes.

```{r, message=FALSE}
boxplot(train$age, train = train, col= 'orange')
```

Hay un considerable nÃºmero de outliers en las edades avanzadas. Pero en principio no se encuentra necesario realizar transformaciones para mejorar la exploraciÃ³n.

```{r, message=FALSE}
ggplot(train, aes(x = age, colour = term_deposit)) +
  geom_histogram() + facet_wrap(~term_deposit, ncol = 2) +
  ggtitle('Edad del cliente')
```

```{r, message=FALSE}
ggplot(train ,aes(x=age, fill=term_deposit)) + geom_density(alpha = .5) + ggtitle("Edad del cliente")
```

```{r, message=FALSE}
ggplot(train, aes(y = age, x = term_deposit)) + geom_violin(aes(fill=term_deposit))+ggtitle("Edad del cliente")
```

Al comparar las distribuciones de las dos poblaciones, clientes que contratan el producto de los que no, podemos observar que la principal diferencia se encuentra en las edades avanzadas, donde se presenta una mayor densidad de contrataciones. Por lo que esta feature puede ser informativa a la hora de predecir el valor de la variable objetivo.

### VARIABLE BALANCE

La variable balance es una variable cuantitativa situada en la escala de intervalo. Dicha variable indica el saldo del cliente.

```{r}
summary(train$balance)
```

De los estadÃ­sticos bÃ¡sicos podemos ver que existen valores negativos, probablemente indiquen la deuda del cliente.

Observando las medidas de dispersiÃ³n:

```{r}
var(train$balance)
```

```{r}
sd(train$balance)
```

```{r}
describe(train$balance)
```

Mostramos la distribuciÃ³n de la variable:

```{r, message=FALSE}
ggplot(train, aes(x = balance)) +
  geom_histogram(fill="skyblue2", colour="white") + geom_density(alpha = .3) +
  ggtitle('Edad del cliente')
```

```{r, message=FALSE}
ggplot(train, aes(x = balance)) +
  geom_density(alpha = .3) +
  ggtitle('KDE de la edad del cliente')
```

La distribuciÃ³n de la variable cuenta con una larga cola que hace complicado estudiar la distribuciÃ³n mÃ¡s allÃ¡ de los valores iniciales. Por ello vamos a realizar una transformaciÃ³n logarÃ­tmica que suavice el crecimiento al principio y lo acrecente al final.

```{r, message=FALSE}
ggplot(train, aes(x = log10(balance))) +
  geom_density(alpha = .3) +
  ggtitle('KDE del log de la edad del cliente')
```

Tras la transformaciÃ³n ya comentada no se aprecian caracterÃ­sticas relevantes no observadas en la distribuciÃ³n original.

```{r, message=FALSE}
boxplot(train$balance, train = train, col= 'orange')
```

Hay gran cantidad de outliers tanto por encima como por abajo del rango intercuartÃ­lico, pero con mayor incidencia en los clientes adinerados. Un efecto usualmente observable en indicadores econÃ³micos.

```{r, message=FALSE}
ggplot(train, aes(x = balance, colour = term_deposit)) +
  geom_histogram() + facet_wrap(~term_deposit, ncol = 2) +
  ggtitle('Saldo del cliente')
```

```{r, message=FALSE}
ggplot(train ,aes(x=balance, fill=term_deposit)) + geom_density(alpha = .5) + ggtitle("Saldo del cliente")
```

```{r, message=FALSE}
ggplot(train ,aes(x=log10(balance), fill=term_deposit)) + geom_density(alpha = .5) + ggtitle("Log del saldo del cliente")
```

```{r, message=FALSE}
ggplot(train, aes(y = balance, x = term_deposit)) + geom_violin(aes(fill=term_deposit))+ggtitle("Saldo del cliente")
```

Al comparar las distribuciones de las dos poblaciones, no observamos en principio diferencia, pero tras realizar la transformaciÃ³n logarÃ­tmica si encontramos un leve desplazamiento de la distribuciÃ³n de contrataciones hacia saldos mÃ¡s altos de los clientes que no contratan. Aunque leve, esta variable puede que sea informativa en el futuro modelo.

### VARIABLE JOB

Variable categÃ³rica en escala nominal, que muestra la profesiÃ³n del cliente.

Mostramos la tabla de frecuencias absolutas y relativas:

```{r, message=FALSE}
ftable(train$job)
```

```{r, message=FALSE}
prop.table(ftable(train$job))
```

La categorÃ­a mÃ¡s frecuente es la de **unemployed**, seguido de **blue-collar** y **management**.

```{r, message=FALSE}
ggplot(train, aes(job)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("ProfesiÃ³n del cliente")
```

La cruzamos con la variable objetivo:

```{r, message=FALSE}
with(train, CrossTable(job, term_deposit, format = 'SPSS'))
```

```{r, message=FALSE}
ggplot(train, aes(x = job, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn profesiÃ³n del cliente")
ggplot(train, aes(x = job, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito resultado campaÃ±a anterior")
```

Estudiante es el estado profesional mÃ¡s propenso a contratar el producto, seguido de retired. Pero todas las profesiones parecen ser buenos discriminadores de la probabilidad de contrataciÃ³n. Por lo que esta variable parece que pueda ser una buena variable predictora.

### VARIABLE MARITAL

Variable categÃ³rica en escala nominal. Informa del estado civil del cliente.

Mostramos la tabla de frecuencias absolutas y relativas:

```{r, message=FALSE}
ftable(train$marital)
```

```{r, message=FALSE}
prop.table(ftable(train$marital))
```

```{r, message=FALSE}
ggplot(train, aes(marital)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Estado civil del cliente")
```

El estado civil mÃ¡s numeroso es casado.

La cruzamos con la variable objetivo:

```{r, message=FALSE}
with(train, CrossTable(marital, term_deposit, format = 'SPSS'))
```

```{r, message=FALSE}
ggplot(train, aes(x = marital, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn estado civil del cliente")
ggplot(train, aes(x = marital, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("Frecuencia de contrataciÃ³n de depÃ³sito segÃºn estado civil del cliente")
ggplot(train, aes(x = marital, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 2) + ggtitle("Frecuencia de estado civil del cliente segÃºn contrataciÃ³n")
```

Soltero es el estado civil mÃ¡s propenso a contratar el producto, seguido muy de cerca de los divorciados y bastante alejado se encuentra el grupo de casados. Sin duda esta variable es informativa para un futuro modelo.

### VARIABLE EDUCATION

Variable categÃ³rica en escala nominal que informa del nivel educativo del cliente.

Mostramos la tabla de frecuencias absolutas y relativas:

```{r, message=FALSE}
ftable(train$education)
```

```{r, message=FALSE}
prop.table(ftable(train$education))
```

```{r, message=FALSE}
ggplot(train, aes(education)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Nivel educativo del cliente")
```

Secondary es el nivel educativo mÃ¡s comÃºn seguido de lejos por tertiary y primary. Existe un pequeÃ±o porcentaje de clientes que no ha contestado la pregunta.

La cruzamos con la variable objetivo:

```{r, message=FALSE}
with(train, CrossTable(education, term_deposit, format = 'SPSS'))
```

```{r, message=FALSE}
ggplot(train, aes(x = education, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn el nivel educativo del cliente")
ggplot(train, aes(x = education, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("Frecuencia de nivel educativo del cliente por contrataciÃ³n")
ggplot(train, aes(x = education, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 2 )) + facet_wrap(~term_deposit, nrow = 2) + ggtitle("Frecuencia de contrataciÃ³n por nivel educativo del cliente")

```

El grupo mÃ¡s propenso a contratar el producto es **secondary**. Pero no hay diferencias tan notables como en otras variables categÃ³ricas como job o marital.

El grupo que no hay respondido a esta variable se asemeja a secondary en cuanto a densidad de contrataciones se refiere. Este hecho es recomendable tenerlo en cuenta a la hora de tratar los valores perdidos.

### VARIABLE DEFAULT

Variable categÃ³rica en escala binaria. Indica si un cliente tiene mora o no.

Mostramos la tabla de frecuencias absolutas y relativas:

```{r, message=FALSE}
ftable(train$default)
```

```{r, message=FALSE}
prop.table(ftable(train$default))
```

```{r, message=FALSE}
ggplot(train, aes(default)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Nivel educativo del cliente")
```

Sin duda el grupo mÃ¡s numeroso con gran diferencia es el de aquellos sin deudas.

La cruzamos con la variable objetivo:

```{r, message=FALSE}
with(train, CrossTable(default, term_deposit, format = 'SPSS'))
```

```{r, message=FALSE}
ggplot(train, aes(x = default, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn si el cliente tiene mora")
ggplot(train, aes(x = default, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("Frecuencia de contrataciÃ³n de depÃ³sito segÃºn si el cliente tiene mora")

```

Como era de esperar, aquellos con deudas pendientes son menos propensos a contratar el producto, por lo que esta variable parece ser una buena canditrain a ser variable predictora.


# VARIABLE HOUSING
La variable housing es una variable dicotomica que muestra si tiene un prÃ©stamo hipotecario.

Tabla de frecuencias absolutas y relativas:
```{r}
table(train$housing)
prop.table(table(train$housing))
```
De manera grÃ¡fica:
```{r}
ggplot(train, aes(housing)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Tenencia de prÃ©stamo hipotecario")
```
Se encuentran balanceado los datos y con mayor proporciÃ³n en tener un prÃ©stamo hipotecario

  
Si evaluamos la variable housing respecto a nuestra variable objetivo (term_deposit)

```{r}
with(train, CrossTable(housing, term_deposit, format = 'SPSS'))
```
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = housing, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn tenencia de hipoteca")
ggplot(train, aes(x = housing, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn tenencia de hipoteca")
```
  
Se comprueba que en tÃ©rminos relativos aquellos que contratan el depÃ³sito tienen mayor proporciÃ³n de individuos que no cuenta con prÃ©stamo hipotecario. Al contrario ocurre con los que no contratan el depÃ³sito siendo en mayor proporciÃ³n aquellos que sÃ­ tiene una hipoteca.


### VARIABLE LOAN
La variable loan es una variable dicotÃ³mica que muestra si el cliente tiene un prÃ©stamo personal.  

Al ser una variable categÃ³rica realizamos una tabla de frecuencias absoluta y de frecuencias relativa para ver su composiciÃ³n de forma univariante.
```{r}
table(train$loan)
prop.table(table(train$loan))
```
De manera grÃ¡fica
```{r}
ggplot(train, aes(loan)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Tenencia de prÃ©stamo personal")
```
  
    
La gran parte de los clientes no tienen un prÃ©stamo personal.  


Si evaluamos la variable loan respecto a nuestra variable objetivo (term_deposit)  

```{r}
with(train, CrossTable(loan, term_deposit, format = 'SPSS'))

```
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = loan, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn tenencia de prÃ©stamo")
ggplot(train, aes(x = loan, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn tenencia de prÃ©stamo")
```
  
  
Se comprueba que en tÃ©rminos relativos aquellos que contratan el depÃ³sito tienen una proporciÃ³n parecida a las que no lo contratan en cuanto a la tenencia de prÃ©stamo personal. Aunque son aquellos que no contratan el prÃ©stamo los que tienen mayor proporciÃ³n de tener un prÃ©stamo personal.


### VARIABLE CONTACT
La variable contact es una variable categÃ³rica que indica la forma en la que se contactÃ³ con el cliente. (A travÃ©s de telÃ©fono mÃ³vil, fijo, desconocido)

Al ser una variable categÃ³rica tambiÃ©n realizamos una tabla de frecuencias absoluta y de frecuencias relativa para ver su composiciÃ³n de forma univariante.

```{r}
ftable(train$contact)
prop.table(ftable(train$contact))
```
Muestra que un gran porcentaje de los clientes fueron contactados a travÃ©s del telÃ©fono mÃ³vil.  

GrÃ¡ficamente:
```{r}
ggplot(train, aes(contact)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Forma de contacto con la persona")
```

Si evaluamos la variable contact respecto a nuestra variable objetivo (term_deposit)
```{r}
with(train, CrossTable(contact, term_deposit, format = 'SPSS'))
```
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = contact, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn forma de contacto")
ggplot(train, aes(x = contact, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn forma de contacto")
```
  
  
Observamos que la gran mayorÃ­a de las personas que contrataron el depÃ³sito fueron contactadas a travÃ©s del telÃ©fono mÃ³vil.

### VARIABLE MES
La variable mes es una variable categÃ³rica que indica en quÃ© mes se produjo el Ãºltimo contacto con el cliente.  
Reasignamos los valores de la variable para que aparezcan en orden.
```{r}
meses = factor(train$month, levels = (c("jan", "feb", "mar", "apr", "may", "jun",
                                        "jul", "aug", "sep", "oct", "nov", "dec")))
```
  
  
Realizamos una tabla de frecuencias absoluta y de frecuencias relativa para ver su composiciÃ³n de forma univariante.  
```{r}
ftable(meses)
prop.table(ftable(meses))

```
  
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(meses)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Ãšltimo mes de contacto con el cliente")
```
  
  
Se observa como mayo fue el mes donde mÃ¡s Ãºltimos contactos se produjeron con el cliente
  
Si evaluamos la variable mes respecto a nuestra variable objetivo (term_deposit)
```{r}
with(train, CrossTable(meses, term_deposit, format = 'SPSS'))
```
  
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = meses, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn mes de Ãºltimo contacto")

ggplot(train, aes(x = meses, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn mes de Ãºltimo contacto")

```
  
Se observa como las personas que contrataron el depÃ³sito fueron contactadas por Ãºltima vez con mayor proporciÃ³n en torno a los meses centrales del aÃ±o.

#### RelaciÃ³n de las variables categÃ³ricas con la variable objetivo
```{r}
mosaic(xtabs(~ term_deposit + loan + contact, data = train), split_vertical = TRUE, shade = TRUE, main = 'ContrataciÃ³n de depÃ³sito', sub = 'SegÃºn formas de contacto y crÃ©dito')

```

### VARIABLE DAY
  
Es una variable continua que abarca valores entre los 31 dÃ­as del mes.
```{r}
summary(train$day)
describe(train$day)
```

Encontramos los principales estadÃ­sticos generales como las medidas de centralidad de la variable
  
Medidas de dispersiÃ³n:
```{r}
sd(train$day)
IQR(train$day)
```

Para ver la distribuciÃ³n de la variable grÃ¡ficamente:
```{r}
ggplot(train, aes(x = day)) +
  geom_histogram(fill="skyblue2", colour="white") + geom_density(alpha = .3) +
  ggtitle('DÃ­a del mes de contacto')
ggplot(train, aes(x = day)) +
  geom_density(alpha = .3) +
  ggtitle('KDE del dÃ­a de contacto')

```
  
Podemos diferenciar tres grupos distintos de datos en la variable. PodrÃ­amos convertirla en una variable categÃ³rica con 3 categorÃ­as.

```{r}
train[,'dia_mes'] = cut(train$day, breaks = c(0, 10, 20, 31), labels = c('InicioMes','MedioMes','FinalMes'))
```

Al convertirla en una variable categÃ³rica podemos sacar una tabla con sus frecuencias.
```{r}
ftable(train$dia_mes)
prop.table(ftable(train$dia_mes))
```

GrÃ¡ficamente:
```{r}
ggplot(train, aes(dia_mes)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("DÃ­a de Ãºltimo contacto con el cliente")
```
  
Si evaluamos la variable dÃ­as respecto a nuestra variable objetivo (term_deposit)
```{r}
with(train, CrossTable(dia_mes, term_deposit, format = 'SPSS'))
```
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = dia_mes, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn dÃ­a de contacto")

ggplot(train, aes(x = dia_mes, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n de depÃ³sito segÃºn dÃ­a de contacto")

```
 
  
No existe un patrÃ³n especÃ­fico para la contrataciÃ³n del depÃ³sito dependiendo de cuÃ¡l fue el Ãºltimo dÃ­a de contacto con el cliente.  

Teniendo mayor proporciÃ³n de contrataciÃ³n entre los dÃ­as 10 y 20 del mes (Medio Mes)  

### VARIABLE DURATION
Es una variable cuantitativa que muestra la duraciÃ³n en segundos del Ãºltimo contacto mantenido con el cliente.
```{r}
summary(train$duration)
describe(train$duration)
```

Las medidas de centralidad de la variable duraciÃ³n son 177 la mediana y 256 la media.
Lo que nos muestra que la variable tiene cierta asimetrÃ­a a la derecha al ser la media mayor a la mediana.

```{r}
skewness(train$duration)
kurtosis(train$duration)
```
  +
  
Se comprueba que el coeficiente de asimetrÃ­a es distinto a 0 y positivo.  
Por otro lado la curtosis es diferente de 3 (Normal) y es LeptocÃºrtica, forma mÃ¡s puntiaguda que la Normal.

En cuanto a las medidas de dispersiÃ³n.
```{r}
sd(train$duration)
IQR(train$duration)

```
  
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = duration)) +
  geom_histogram(fill="skyblue2", colour="white") +
  ggtitle('Duracion Ãºltimo contacto')
ggplot(train, aes(x = duration)) +
  geom_density() +
  ggtitle('KDE de duracion Ãºltimo contacto')
```
  
Se comprueba como la variable duraciÃ³n cuenta con muchos valores de su distribuciÃ³n en cantidades muy pequeÃ±as y menos valores en cantidades grandes.  
PodrÃ­amos transformar la variable para obtener mayor normalidad en su distribuciÃ³n.

```{r}
boxplot(train$duration, train = train, col= 'orange')

```
  
Se comprueba la gran cantidad de atÃ­picos en valores superiores de esta distribuciÃ³n lo que sugiere una transformaciÃ³n de sus datos.

  
Respecto a nuestra variable de interÃ©s (Term_deposit)

```{r}
ggplot(train, aes(x = duration, colour = term_deposit)) +
  geom_histogram() + facet_wrap(~term_deposit, ncol = 2) +
  ggtitle('DuraciÃ³n de Ãºltimo contacto con el cliente')
ggplot(train ,aes(x=duration, fill=term_deposit)) + geom_density(alpha = .5) + ggtitle("DuraciÃ³n Ãºltimo contacto con el cliente")
```

```{r}
ggplot(train, aes(y = duration, x = term_deposit)) + geom_violin(aes(fill=term_deposit))+ggtitle("DuraciÃ³n Ãºltimo contacto con el cliente")


```

### VARIABLE CAMAPIGN
Es una variable cuantitativa que muestra el nÃºmero de contactos en esta campaÃ±a hacia un cliente.
```{r}
summary(train$campaign)
describe(train$campaign)
```

Encontramos los valores de los estadÃ­sticos generales donde el 75% de los clientes recibieron menos de 3 contactos.
Las medidas de centralidad de esta variable es la mediana con 2 contactos por cliente en esta campaÃ±a.

```{r}
skewness(train$campaign)
kurtosis(train$campaign)
```
Esta variable tambiÃ©n tiene asimetrÃ­a hacia la derecha como podemos comprobar al ser mayor que 0 el coeficiente de asimetrÃ­a.  

Por otro lado, la curtosis es diferente de 3 (Normal) y es LeptocÃºrtica, forma mÃ¡s puntiaguda que la Normal.

En cuanto a las medidas de dispersiÃ³n.
```{r}
sd(train$campaign)
IQR(train$campaign)
```

GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = campaign)) +
  geom_histogram(fill="skyblue2", colour="white") +
  ggtitle('NÃºmero de contactos al cliente')
boxplot(train$campaign, train = train, col= 'orange')
```
  
  
Se comprueba la gran existencia de outliers en la distribuciÃ³n de esta variable. Se deberÃ­a transformar la variable.

  
Con respecto a la variable de interÃ©s
```{r}
ggplot(train, aes(x = campaign, colour = term_deposit)) +
  geom_histogram() + facet_wrap(~term_deposit, ncol = 2) +
  ggtitle('Numero de contactos al cliente en esta campaÃ±a')

ggplot(train,aes(x=campaign, colour=term_deposit)) + geom_freqpoly(bindwidth = 0.5) + ggtitle("Numero de contactos al cliente en esta campaÃ±a")

```

```{r}
ggplot(data = train) + geom_boxplot(aes(x= term_deposit, y=campaign, fill = term_deposit))
```

Con esta representaciÃ³n del diagrama de caja, se comprueba la necesidad de transformar la variable.

### VARIABLE PDAYS
  
La variable pdays es una variable cuantitativa que muestra los dÃ­as que han pasado desde que se contactÃ³ con Ã©l en la anterior campaÃ±a
```{r}
summary(train$pdays)
describe(train$pdays)
```
La variable muestra con -1 aquellas personas que no habÃ­an recibido contacto en ninguna campaÃ±a anterior.

Forma de la variable:
```{r}
skewness(train$pdays)
kurtosis(train$pdays)
```

La variable es right skewed es decir tiene asimetrÃ­a positiva.
TambiÃ©n es leptocÃºrtica, mÃ¡s puntiaguda que una variable con distribuciÃ³n normal.
  
En cuanto a la dispersiÃ³n en esta variable:
```{r}
sd(train$pdays)
IQR(train$pdays)
```
El IQR es 0 ya que el 75% de los clientes no habÃ­an sido contactados en ninguna campaÃ±a anterior.
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = pdays)) +
  geom_histogram(fill="skyblue2", colour="white") +
  ggtitle('NÃºmero dÃƒ­as desde Ãºltimo contacto en campaÃ±as anteriores')
boxplot(train$pdays, train = train, col= 'orange')
```

 
Se comprueba la gran existencia de outliers en la distribuciÃ³n. Se deberÃ­a transformar la variable.  

Respecto a la variable de interÃ©s
```{r}
ggplot(train, aes(x = pdays, colour = term_deposit)) +
  geom_histogram() + facet_wrap(~term_deposit, ncol = 2) +
  ggtitle('NÃºmero dÃ­as desde Ãºltimo contacto en campaÃ±as anteriores')

ggplot(train,aes(x=pdays, colour=term_deposit)) + geom_freqpoly(bindwidth = 0.5) + ggtitle("NÃºmero dÃ­as desde Ãºltimo contacto en campaÃ±as anteriores")


```

```{r}
ggplot(data = train) + geom_boxplot(aes(x= term_deposit, y=pdays, fill = term_deposit))
```

Se observa que es necesaria la transformaciÃ³n de la variable pdays dada su distribuciÃ³n.

### VARIABLE POUTCOME
  
La variable poutcome es una variable cualitativa polÃ­toma que muestra el resultado de contrataciÃ³n de la Ãºltima campaÃ±a con respecto a cada cliente. Los cuatro valores categÃ³ricos son: "failure","other","success" y "unknown"

```{r}
poutcome = factor(train$poutcome, levels = (c("failure","other","success","unknown")))
```

  
Realizamos una tabla de frecuencias absoluta y de frecuencias relativa para ver su composiciÃ³n de forma univariante.  

```{r}
ftable(poutcome)
prop.table(ftable(poutcome))
```
  
  
GrÃ¡ficamente:

```{r}
ggplot(train, aes(poutcome)) + geom_bar(aes(y = ..prop.., group = 1 ), fill = 'skyblue2') + ggtitle("Resultado de la campaÃ±a anterior con el cliente")
```
  

Si evaluamos la variable poutcome con respecto a nuestra variable objetivo (term_deposit)
```{r}
with(train, CrossTable(poutcome, term_deposit, format = 'SPSS'))
```
  
  
GrÃ¡ficamente:
```{r}
ggplot(train, aes(x = poutcome, fill = term_deposit)) + geom_bar() + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito segÃºn resultado campaÃ±a anterior")

ggplot(train, aes(x = poutcome, fill = term_deposit)) + geom_bar(aes(y = ..prop.., group = 1 )) + facet_wrap(~term_deposit, nrow = 1) + ggtitle("ContrataciÃ³n depÃ³sito resultado campaÃ±a anterior")
```
  
  
Se observa como las personas que adquirieron la oferta de la campaÃ±a anterior un nÃºmero significativo vuelve a contratar la campaÃ±a actual siendo un 52.35% que sÃ­ adquiere frente a un 47.65 que no adquiere el producto de esta campaÃ±a

### VARIABLE Previous
  
Es una variable continua que indica el nÃºmero de llamadas realizadas a este cliente antes de esta campaÃ±a.
```{r}
summary(train$previous)
describe(train$previous)
```

Encontramos los principales estadÃ­sticos generales como las medidas de centralidad de la variable
  
Medidas de dispersiÃ³n:
```{r}
sd(train$previous)
IQR(train$previous)
```

Para ver la distribuciÃ³n de la variable grÃ¡ficamente:

**Eliminamos los datos atÃ­picos, puesto que hay una instancia con 275 llamadas antes de esta campaÃ±a
```{r}

ggplot(train, aes(x = previous)) +
  geom_bar(fill="skyblue2", colour="white") + geom_density(alpha = .3) +
  ggtitle('NÃºmero de llamadas realizadas a este cliente antes de esta campaÃ±a')+coord_cartesian(xlim=c(0,10))

ggplot(train, aes(x = previous)) +
  geom_density(alpha = .3) +
  ggtitle('KDE del nÃºmero de llamadas realizadas a este cliente antes de esta campaÃ±a')+coord_cartesian(xlim=c(0,10))


ggplot(train, aes(x = previous), colour=factor(term_deposit)) +
  geom_bar(fill="skyblue2",) + geom_density(alpha = .3) +
  ggtitle('NÃºmero de llamadas realizadas a este cliente antes de esta campaÃ±a')+coord_cartesian(xlim=c(0,10))+
  facet_wrap(~term_deposit)

ggplot(train, aes(x = previous), colour=factor(term_deposit)) +
  geom_density(fill="skyblue2",) +
  ggtitle('NÃºmero de llamadas realizadas a este cliente antes de esta campaÃ±a')+coord_cartesian(xlim=c(0,10))+
  facet_wrap(~term_deposit)


```

Se observa que los clientes que adquieren el depÃ³sito han recibido mayor nÃºmero de llamadas media en anteriores campaÃ±as frente a los que no adquieren el producto.

### VARIABLE term_deposit - variable respuesta
  
La variable term_deposit (variable binaria) indica si el cliente suscribe el depÃ³sito ("sÃ­","no")
```{r}
prop.table(table(train$term_deposit))
ggplot(train,aes(term_deposit))+geom_bar(fill="green")+ggtitle("Se suscribe el cliente?")

pairs( age ~ duration + campaign + previous, data=train, main="GrÃ¡fico - Matriz de dispersiÃ³n")


library(corrplot)
train %>% select(age,balance,day, duration, campaign, pdays, previous) %>% cor( method ="spearman") %>% corrplot()
```

En el caso de que observamos que el conjunto de train se encuentra tan desbalanceado respecto a la variable objetivo que no permite ajustar el modelo, realizarÃ­amos un balanceo. Por ello, vamos a aplicar Random Under Sampling para tratar de disminuir la diferencia entre ambas categorÃ­as.

```{r include = FALSE}
negativeIndex = sample(which(train$term_deposit == 'no'), size = round(0.12*n), replace=FALSE)
negative_train = train[negativeIndex ,]
train <- rbind(negative_train, train[train$term_deposit == 'yes',])
```


## Tratamiento de datos faltantes

Las columnas que presentan datos faltantes son:

1. Job: type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')
2. Contact: contact communication type (categorical: 'cellular','telephone')
3. Pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
4. Education: (categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')
5. Duration: last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.
6. Poutcome: outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')


Utilizamos la funciÃ³n describe de la librerÃ­a Hmis para mostrar la informaciÃ³n estadÃ­stica de las variables que presentan datos faltantes.
```{r}
d <- describe(train)
d[c('job','contact','pdays','education','duration','poutcome')]
```