Manejo de bases de datos - Aplicacion con EPH


Luego de abordar las principales funciones necesarias para operar sobre las bases de datos, veremos su aplicación con la base individual de la EPH.

En primer lugar, importamos la base de datos, sea descargandola de la página del indec y luego importándola en R (funciones read.table(), por ejemplo), o utilizando el paquete {eph} y la función que directamente nos permite crear un objeto y en él la base:

# install.packages("eph")
library(eph) 

# elijo el año y trimestre en cuestión
base_ind_eph <- get_microdata(year = 2019, trimester = 3, type = "individual")


La función read.table, de re base, nos permite levantar los archivos de extensión “.txt”
La función read.xlsx, del paquete {openxlsx}, nos permite levantar los archivos de extensión “.xlsx”


Ejercicio 1 - Cargamos la base de datos

1.1.Levantar la base individual del primer trimestre de 2019.


Ejercicio 2 - Conociendo los datos

2.1. Obtener la estructura básica de nuestro dataframe (pista: función str()).


2.2. Obtener los estadísticos principales de la distribución del ingreso de la ocupación principal (Variable P21; funciones mean(), median() o directamente summary()):


2.3. Sacar la frecuencia simple de la variable ESTADO:


Ejercicio 3 - Transformaciones de la base de datos

Cargamos la librería tidyverse que vamos a utilizar para trabajar la base.

library(tidyverse)

3.1. Filtrar nuestra base para quedarnos solo con las observaciones de la region 43 y guardarlo en un objeto que se llame pampeana


3.2. Cambiar el nombre de la variable P21 por ingreso_OP y guardarlo en la misma base de datos.


3.3. Crear una nueva variable ingreso_horario que sea el ingreso por hora de la ocupación principal (P21/PP3E_TOT) y guardarlo en la misma base de datos.


3.4. Crear una variable nivel_ed2 que agrupe los niveles educativos de la variable NIVEL_ED en 4:

  • Sin educación, primaria incompleta, o Ns.Nr.
  • Hasta secundaria incompleta
  • Hasta universitaria incompleta
  • Universitaria completa

y guardarlo en la misma base de datos.


3.5. Quedarnos solo con las siguientes variables de la base de datos:

ANO4, TRIMESTRE, REGION, AGLOMERADO, ESTADO, PONDERA

y guardarlo en un nuevo objeto llamado recorte.


3.6. Ordenar los datos del recorte anterior por REGION y ESTADO.


3.7. Crear una tabla llamada poblacion_ocupados que me de la información del total de población y el total de los ocupados.

Nota: - Población: Si contaramos cuantos registros tiene la base, simplemente tendríamos el numero de individuos muestral de la EPH, por ende debemos sumar los valores de la variable PONDERA, para contemplar a cuantas personas representa cada individuo encuestado. - Ocupados: En este caso, debemos agregar un filtro al procedimiento anterior, ya que unicamente queremos sumar los ponderadores de aquellas personas que se encuentran ocupadas. (La lógica seria: “Suma los valores de la columna PONDERA, solo para aquellos registros donde el ESTADO == 1”)


3.8. A partir de la información anterior, calcular la tasa de empleo, definida como:

  • Tasa de empleo: \(\frac{Ocupados}{Poblacion}\)


3.9. Crear una tabla llamada tasas que me de la información del total de población, el total de ocupados, el total de desocupados, de la PEA (ocupados + desocupados) y calcular la tasa de actividad, empleo y desocupación.

  • Tasa de actividad: \(\frac{PEA}{Poblacion}\)

  • Tasa de desocupacion: \(\frac{Desocupados}{PEA}\)


3.10. Cambiar el formato de la tabla para que queden los nombres de las tasas en la primer columna y los valores en la segunda columna.


3.11. Cargar la base “Aglomerados EPH” que se encuentra en la carpeta fuentes y guardarla en el ambiente de R con el nombre aglomeradoseph. Unir ambas bases a partir de la variable AGLOMERADO.


3.12. Repetir el ejercicio 3.9. pero ahora por aglomerado, usando los nombres de los aglomerados y guardarlo en un objeto llamado tasas_aglo.