2.1 Variables de interés

El primer paso, y el más importante, es definir qué variables se utilizarán (cada variable hace referencia a una columna de la base de datos).

Los nombres de columnas fueron previamente ordenados, clasificados y estandarizados en un trabajo conjunto con SERNAC. En un principio, unificando todas las bases de datos desde el 2010, se contaba con 200 columnas diferentes.

Determinar cuál de dichas variables podrían ser valiosas para el objetivo de detectar situaciones de reclamos atípicas, implicó un largo tiempo de compenetración y comprensión con la base de datos, que fue posible gracias al trabajo conjunto con el equipo de SERNAC.

Este trabajo fue condensando en el archivo homologacion_columnas, el cual es un documento en formato Excel que contiene el nombre de una columna, su equivalencia estandarizada y si será o no utilizada en el sistema de alerta.

2.1.1 Marcar una columna como variable a utilizar

En la tabla 2.1 se puede ver un extracto del archivo homologacion_columnas, para aquellas variables que serán utilizadas por el sistema de alertas. Las tres columnas de interés son original, nuevo y Uso, que marcan el nombre original con que venía en la base de datos, su nombre equivalente homologado y si la columna será o no utilizada como variable de interés, respectivamente. Para el caso de la columna Uso, se marcan con un \(1\) aquellas columnas que serán utilizadas (y con \(0\) las que no).

Tabla 2.1: Ejemplo de columnas/variables y su nombre homologado, que serán utilizadas para el sistema de alertas.
original nuevo Uso
caso_fecha_cierre caso_cierre_fecha 1
fecha_resultado caso_cierre_fecha 1
caso_fecha_creacion caso_creacion_fecha 1
caso_numero caso_numero 1
numero_caso caso_numero 1
cat_motiv_legal categoria_motivo_legal 1
categoria_mercado_prov categoria_motivo_legal 1
categoria_mercado_sucursal categoria_motivo_legal 1
categoria_ml categoria_motivo_legal 1
categoria_motivo_legal categoria_motivo_legal 1

Una nueva tabla es retornada con los nombres de las columnas modificadas de acuerdo al archivo homologacion_columnas.

2.1.2 Agregar una columna como variable a utilizar

Basta con añadir una fila extra al archivo, indicando el nombre original, su nuevo nombre (puede ser el mismo) y el valor \(1\) en al columna, bajo las columnas original, nuevo y Uso respectivamente. Otra información anexa de interés (como por qué se agrega, cuándo, etc) puede ser añadida en otras columnas sin problema, puesto que serán ignoradas al momento de hacer la conversión.

2.1.3 Resumen de variables

Las variables que se consideraron son las siguientes (como se mencionó previamente, se pueden agregar o quitar):

  1. caso_cierre_fecha: fecha cuando se cerró el reclamo. Corresponde a los nombres originales de caso_fecha_cierre y fecha_resultado.
  2. caso_creacion_fecha: fecha cuando se creó el reclamo. Corresponde al nombre original de caso_fecha_creacion.
  3. caso_numero: número del caso, equivalente a un identificador único. Corresponde a los nombres originales de caso_numero y numero_caso.
  4. categoria_motivo_legal: inicialmente contenía 371 motivos únicos originales, que fueron reducidos a 83, después de aplicar la conversión utilizando el árbol de motivos legales (sección 2.2.1). Esta es una subcategoría de motivo_legal_descripcion. Corresponde a las nombres originales de cat_motiv_legal, categoria_mercado_prov, categoria_mercado_sucursal, categoria_ml y categoria_motivo_legal.
  5. cierre_corto: resume el tipo de cierre que se le dio al caso (el proveedor acoge, no acoge, no responde, entre otros). Corresponde al nombre original de cierre_corto.
  6. consumidor_comuna: nombre de la comuna de la persona que realiza el reclamo. En la sección 2.2.2) se especifican mayores detalles respecto a su tratamiento, pero esta columna pasa a llamarse cut_comuna. Corresponde a los nombres originales de comuna_consumidor y cons_comuna. Actualmente no está en uso, pero se conserva por futuras necesidades.
  7. consumidor_genero: indica el género del reclamante (masculino, femenino o prefiero no decirlo). Corresponde a los nombres originales de cons_genero y genero_consumidor.
  8. consumidor_id: número único que identifica al consumidor. Corresponde a los nombres originales de cons_id y id_consumidor. Actualmente no está en uso, por carecer de información útil, pero se conserva por futuras necesidades.
  9. estado_caso_nombre: indica si el caso está ingresado, en proceso o cerrado. Corresponde a los nombres originales de estado_caso y estado_caso_nombre.
  10. mercado_tipo_producto_nombre: actualmente cuenta con 180 categorías de productos y depende de. Corresponde a los nombres originales de mercado_tipo_producto_nombre y tipo_prod.
  11. motivo_legal_descripcion: inicialmente contenía 48 motivos únicos, reorganizados en 17, después de aplicar la conversión utilizando el árbol de motivos legales. Describe el motivo legal principal del reclamo. Corresponde a los nombres originales de motivo_legal y motivo_legal_descripcion.
  12. proveedor_mercado_categoria_nombre: actualmente tiene 30 categorías de industrias (bancos, tarjetas multitiendas, clínicas, etc). Corresponde a los nombres originales de mercado_categoria_nombre, nombre_categoria_mercado y prov_mercado_categoria_nombre.
  13. proveedor_mercado_nombre: representa el mercado al cual pertenece el reclamo. Actualmente sólo se utiliza el mercado financiero, salud, seguros y previsión. Corresponde a los nombres originales de mercado_nombre, mercado_prov, nombre_mercado y prov_mercado_nombre.
  14. proveedor_nombre_fantasia: nombre de fantasía o razón social del proveedor (ver 2.3 para más detalles sobre la homologación de esta variable). Corresponde a los nombres originales de nombre_fantasia_proveedor y proveedor_nombre_fantasia.
  15. proveedor_rut: número entero, que representa el RUT (sin digito verificador) del proveedor. Corresponde a los nombres originales de proveedor_rut y rut_proveedor.
  16. reclamo_descripcion: transcripción del reclamo presentado. Corresponde a los nombres originales de descripcion_inconformidad y reclamo_descripcion.

Estos nombres estandarizados se definieron en base a un criterio de pertenencia, es decir, las columnas que hacen referencias al consumidor, parten con el nombre de consumidor; lo mismo con el proveedor, el caso, etc. Con esto se busca facilitar la búsqueda de variables de interés y facilitar su agrupamiento.

Los formatos para las variables de fechas son YYYY-mm-dd %H:%M:%S o YYYY-mm-dd %H:%M. YYYY corresponde al año completo (ej: 1998), mm al mes en formato númerico (01 a 12), ‘dd’ al día del mes (01 a 31), %H a la hora (00 a 23), %M a los minutos (00 a 59) y %S a los segundos (00 a 59). Mayor información sobre los formatos de fechas pueden ser encontrados en https://stat.ethz.ch/R-manual/R-devel/library/base/html/strptime.html.