Análisis Multivariado

Se realizará un análisis de variables cuantitativas y cualitativas por separado, de manera mixta y se concluirá con la palicación de un método multivariado para variables cuantitativas.

VARIABLES

Encuesta de Carga Financiera y Educación Financiera de los Hogares - IEFIC-2017 -2018

## Classes 'data.table' and 'data.frame':   9515 obs. of  6 variables:
##  $ V1            : chr  "$1" "$2" "$3" "$4" ...
##  $ INGRESO       : chr  "$3,000,000" "$1,377,700" "$1,377,700" "$4,206,760" ...
##  $ G_ALIMENTACIÓN: chr  "$850,000" "$850,000" "$850,000" "$1,000,000" ...
##  $ G_VESTUARIO   : chr  "$130,000" "$130,000" "$130,000" "$200,000" ...
##  $ G_RECREACIÓN  : chr  "$1,200,000" "$1,200,000" "$1,200,000" "$100,000" ...
##  $ DEPARTAMENTO  : num  5 5 5 5 5 5 5 5 5 5 ...
##  - attr(*, ".internal.selfref")=<externalptr>
library(DT)
library(data.table)
DT::datatable(df_MULT, options = list(pageLength = 15))

ANÁLISIS MULTIVARIADO CUANTITATIVO

Encuesta de Carga Financiera y Educación Financiera de los Hogares - IEFIC-2017 -2018

-Ingreso del Hogar

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##      8000    700000   1020000   1850630   1903820 100000000

Se evidencia un rango muy amplio entre el valor mínimo y el valor máximo, eviendiandose que el 75% de la población tiene un ingreso menor hasta los COP 1’903.820 millones de pesos colombianos mensuales, quedando un 25% de la población con unos ingresos que llegan hasta los COP 100’000.000.

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##    15000   400000   600000   674955   800000 12000000

El 75% de los encuestados gastan menos de COP 800.000 en alimentación por el hogar en un mes.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1000   50000   82000  118003  150000 2000000

El 75% de la población gasta menos de 150.000 en vestuario al mes.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3500   70000  100000  175105  200000 5000000

El 75% de la población gasta menos de COP 200.000 en recreación en el mes.

Vector de Medias

  • Ingreso: $1’850.630.1
  • Gasto en Alimentación: $ 674.954.6
  • Gasto en Vestuario: $ 118.003.1
  • Gasto en Recreación: $ 175.104.6
#Matriz de varianzas y covarianzas
cov_DANE <- readRDS("Outputs/cov_DANE.rds")
cov_DANE
##              INGTOTOB      P2478_1     P2478_2      P2478_8
## INGTOTOB 9.920412e+12 335159657089 83006924627 216138603272
## P2478_1  3.351597e+11 206685856463 18690023146  39360367109
## P2478_2  8.300692e+10  18690023146 16555562206   9643384217
## P2478_8  2.161386e+11  39360367109  9643384217  45459716733
#varianza total
Dcov_DANE <- readRDS("Outputs/Dcov_DANE.rds")
Dcov_DANE
##     INGTOTOB      P2478_1      P2478_2      P2478_8 
## 9.920412e+12 2.066859e+11 1.655556e+10 4.545972e+10

Varianza Promedio: 2547278325390

Determinante de la matriz: 949137814517897122980064828888448880224062068

Deviación típica generalizada: 30808080344576763626662

Variabilidad Promedio: 175522307256

Desviación Promedio: $418.953.8

Fig. 1. Diagrama de cajas por variable

Fig. 1. Diagrama de cajas por variable

Al observar el BoxPlot de cada variable se concluye que el Ingreso es la que tiene mayor dispersión en los datos y la variable gastos en recreación la de menor dispersión; también podemos observar que la media del ingreso se encuetra por debajo de cero lo cual indica una cola muy larga en los valores positivos.

Fig. 2. Prueba de Multinormalidad

Fig. 2. Prueba de Multinormalidad

Fig. 3. Dispersograma

Fig. 3. Dispersograma

Fig. 4. Correlación y Función de Densidad

Fig. 4. Correlación y Función de Densidad

Fig. 5. Correlación

Fig. 5. Correlación

La correlación evidencia una baja correlación en cuando al ingreso y el gasto por vestuario, lo cual indica que ambas variables se comportan de una manera similar pero de manera debil; así como la correlación más fuerte que corresponde a los gastos en alimentación con los gastos en recreación los cuales si indican un comportamiento similar entre las variables.

ANÁLISIS BIVARIADO DE VARIABLES CUALITATIVAS

Encuesta de Carga Financiera y Educación Financiera de los Hogares - IEFIC-2017 -2018

Tabla de Contigencia Sexo vs Percepción a Pagos electrónicos
##           P35                       P3045 P2439 DEPARTAMENTO
##     1:  Mujer                Muy Aceptado    NO    Antioquia
##     2:  Mujer                Muy Aceptado    NO    Antioquia
##     3: Hombre      Moderadamente aceptado    SI    Antioquia
##     4:  Mujer               Algo aceptado    SI    Antioquia
##     5: Hombre               Algo aceptado    NO    Antioquia
##    ---                                                      
## 36813:  Mujer               Poco Aceptado    NO       Bogotá
## 36814:  Mujer           Bastante aceptado    SI       Bogotá
## 36815:  Mujer      Moderadamente aceptado    NO       Bogotá
## 36816:  Mujer               Poco Aceptado    SI       Bogotá
## 36817: Hombre Moderadamente poco aceptado    SI       Bogotá

Se tomarán las variables P35: Sexo, P3045: Percepción hacia los Pagos Electrónicos, P2439: Tenencia de vivienda.

Poco Aceptado Moderadamente poco aceptado Algo aceptado Moderadamente aceptado Bastante aceptado Muy Aceptado Sum
Hombre 10.94 4.53 6.85 9.16 7.52 5.23 44.23
Mujer 15.62 5.92 8.29 10.99 8.76 6.19 55.77
Sum 26.56 10.45 15.14 20.16 16.28 11.41 100.00

Se puede observar que las mujeres presentaron una mayor paticipación en la encuesta con un 55.77% con respecto a los hombres con un 44.23%, también es identificar que el 26.56% de los encuestados o acepta los métodos de pago electrónico siendo una proporción importante de la encuesta, lo cual indica que pueden estar más cómodos usando otros medios de pago como lo puede ser el efcetivo.

Fig. 6. Contigencia Sexo vs Percepción a Pagos electrónicos

Fig. 6. Contigencia Sexo vs Percepción a Pagos electrónicos

En la gráfica se logra apreciar que son las mujeres las que menos aceptan los págos electrónicos con respecto a los hombres en menor medida, en cuanto a las otras categorías de la escala de aceptación se aprecia que la percepción entre hombres y mujeres se mantiene similar en su proporción.

Tabla de Contigencia Sexo vs Vivienda Propia

SI NO Sum
Hombre 21.16 23.07 44.23
Mujer 27.48 28.29 55.77
Sum 48.65 51.35 100.00

la tabla de contingencia nos muestra que la probabilidad de ser mujer y tener vivienda propia 27.48% más alta con respecto a los hombres 21.16%; también se concluye que el 51.35% de los encuestados no poseen vivienda propia.

Fig. 7. Contigencia Sexo vs Vivienda Propia

Fig. 7. Contigencia Sexo vs Vivienda Propia

ANÁLISIS MULTIVARIADO MIXTO

Encuesta de Carga Financiera y Educación Financiera de los Hogares - IEFIC-2017

Fig. 8. Violín Ingreso vs Sexo

Fig. 8. Violín Ingreso vs Sexo

Al comparar la variable Ingreso del Hogar (cuantitativa) con la variable Sexo (cualitativa), se puede observar que la media de ambos sexos se encuentra en la misma zona proporcionalmente, lo que indica que en promedio tanto hombres como mujeres ganan lo mismo. También se puede apreciar que en ambos sexos hay una importante dispersión de los datos en los bigotes del diagrama de caja y bigotes (boxplot), y se puede observar que la mayoría de los hogares tienen un ingreso que oscila entre $1’000.000 y $2’000.000.

Fig. 9. Violín INgreso vs Percepción de pagos Electrónicos

Fig. 9. Violín INgreso vs Percepción de pagos Electrónicos

ANÁLIS DE COMPONENTES PRINCIPALES

Encuesta de Carga Financiera y Educación Financiera de los Hogares - IEFIC-2017

Para el desarrollo del método de análisis de componenetes principales, se han tomado las variables, Ingreso total del Hogar, Gastos de Alimentación, Gastos de Vestuario y Gastos en Recreación.
Fig. 9. Biplot Análisis de Componentes Principales

Fig. 9. Biplot Análisis de Componentes Principales

Se puede observar que el vector correspondiente a la variable Ingreso por Hogar tiene la dirección más positiva y la longitud más amplia. Además, se pueden apreciar algunos valores extremos en la distribución de ingresos de los encuestados, lo cual indica una alta variabilidad en esta variable. Estos valores extremos no se eliminaron o trataron como atípicos, ya que son una característica natural de la variable.

Las variables Gasto en Alimentación y Gasto en Vestuario tienen un comportamiento similar en cuanto a su dirección y magnitud, con pocos valores extremos que indican una baja variabilidad en estos gastos. También se observa la variable Gasto en Recreación, que tiene la menor variabilidad de las cuatro variables, lo que sugiere que los encuestados gastan cantidades más homogéneas en recreación.

Fig. 10. Aporte por componente

Fig. 10. Aporte por componente

El método utilizado permite observar la proporción de varianza explicada por cada una de las componentes. En este caso, se encontró que la primera componente explica el 47% de la varianza y la segunda componente el 20%, lo que indica que seleccionar dos componentes principales permitiría conservar el 67% de la varianza de las cuatro variables.

Fig. 11. Número de Componentes

Fig. 11. Número de Componentes

De esta manera, también es posible observar el aporte de cada componente cuando se utilizan 1, 2, 3 o 4 componentes. En este caso, se encontró que seleccionar tres componentes sería lo ideal para responder al 85% de la variabilidad de las cuatro variables observadas.