Esta función aplica imputación de ingresos mensuales (ingocup) para personas ocupadas en la ENOE utilizando modelos de imputación múltiple con el paquete mice. Se utiliza el logaritmo del ingreso como variable objetivo y se imputan los valores faltantes en función de variables donantes como edad, escolaridad, ocupación, horas trabajadas, entre otras.

imputa_ingocup(
  data,
  vars_donantes = c("edad", "anios_es", "c_ocu11c", "pos_ocu", "rama_est2", "ing7c",
    "ent", "hrsocup", "t_loc"),
  id_vars = c("folio3", "trim", "anio"),
  method = "pmm",
  seed = 1234,
  plot = FALSE,
  anio = NULL,
  trimestre = NULL
)

Arguments

data

Un data frame con personas ocupadas (clase2 == 1) y variables de ingreso (ingocup), variables donantes y metadatos de identificación.

vars_donantes

Vector con nombres de variables que se utilizarán como predictores para la imputación.

id_vars

Vector con nombres de variables identificadoras (por defecto: folio3, trim, anio).

method

Método de imputación utilizado por mice (por defecto: "pmm").

seed

Semilla aleatoria para reproducibilidad.

plot

Lógico. Si TRUE, se muestra un gráfico comparando la distribución del ingreso original vs imputado.

anio

Año del trimestre, si data no contiene esta variable.

trimestre

Trimestre del año (1–4), si data no contiene esta variable.

Value

Un data frame con las variables:

ingocup_imp

Ingreso mensual imputado

log_ingocup_imp

Logaritmo del ingreso imputado

imp_ingocup

Indicador binario de si el ingreso fue imputado (1 = sí)

Details

La imputación se realiza por bloques según sexo y entidad federativa. Si no existen las variables folio3, anio o trim, se generan automáticamente con funciones auxiliares (crear_folios() y procesar_vars_sociodemo()).

La imputación de ingresos se realiza únicamente para personas ocupadas (clase2 == 1) con datos válidos de edad, y en caso de estar disponible, también de años de escolaridad (anios_es).

La variable a imputar es el logaritmo natural del ingreso mensual (log_ingocup_imp), y la imputación se realiza utilizando el método especificado (por defecto "pmm", predictive mean matching) a través del paquete mice.

Las imputaciones se hacen de forma separada por bloques definidos por el sexo (sex) y la entidad federativa (ent), para capturar mejor las heterogeneidades contextuales.

Las variables utilizadas como predictoras ("donantes") incluyen, si están presentes:

  • edad: Edad en años.

  • anios_es: Años aprobados de escolaridad.

  • c_ocu11c: 11 grandes grupos ocupacionales.

  • pos_ocu: Posición en la ocupación.

  • rama_est2: Rama de actividad.

  • ing7c: Indicador de percepción de ingresos.

  • ent: Clave de entidad federativa.

  • hrsocup: Horas trabajadas a la semana.

  • t_loc: Tamaño de localidad.

Solo se consideran aquellas variables donantes que están disponibles en el conjunto de datos.