2.1 Variables de interés
El primer paso, y el más importante, es definir qué variables se utilizarán (cada variable hace referencia a una columna de la base de datos).
Los nombres de columnas fueron previamente ordenados, clasificados y estandarizados en un trabajo conjunto con SERNAC. En un principio, unificando todas las bases de datos desde el 2010, se contaba con 200 columnas diferentes.
Determinar cuál de dichas variables podrían ser valiosas para el objetivo de detectar situaciones de reclamos atípicas, implicó un largo tiempo de compenetración y comprensión con la base de datos, que fue posible gracias al trabajo conjunto con el equipo de SERNAC.
Este trabajo fue condensando en el archivo homologacion_columnas
, el cual es un documento en formato Excel que contiene el nombre de una columna, su equivalencia estandarizada y si será o no utilizada en el sistema de alerta.
2.1.1 Marcar una columna como variable a utilizar
En la tabla 2.1 se puede ver un extracto del archivo homologacion_columnas
, para aquellas variables que serán utilizadas por el sistema de alertas. Las tres columnas de interés son original
, nuevo
y Uso
, que marcan el nombre original con que venía en la base de datos, su nombre equivalente homologado y si la columna será o no utilizada como variable de interés, respectivamente. Para el caso de la columna Uso
, se marcan con un \(1\) aquellas columnas que serán utilizadas (y con \(0\) las que no).
original | nuevo | Uso |
---|---|---|
caso_fecha_cierre | caso_cierre_fecha | 1 |
fecha_resultado | caso_cierre_fecha | 1 |
caso_fecha_creacion | caso_creacion_fecha | 1 |
caso_numero | caso_numero | 1 |
numero_caso | caso_numero | 1 |
cat_motiv_legal | categoria_motivo_legal | 1 |
categoria_mercado_prov | categoria_motivo_legal | 1 |
categoria_mercado_sucursal | categoria_motivo_legal | 1 |
categoria_ml | categoria_motivo_legal | 1 |
categoria_motivo_legal | categoria_motivo_legal | 1 |
Una nueva tabla es retornada con los nombres de las columnas modificadas de acuerdo al archivo homologacion_columnas
.
2.1.2 Agregar una columna como variable a utilizar
Basta con añadir una fila extra al archivo, indicando el nombre original, su nuevo nombre (puede ser el mismo) y el valor \(1\) en al columna, bajo las columnas original
, nuevo
y Uso
respectivamente. Otra información anexa de interés (como por qué se agrega, cuándo, etc) puede ser añadida en otras columnas sin problema, puesto que serán ignoradas al momento de hacer la conversión.
2.1.3 Resumen de variables
Las variables que se consideraron son las siguientes (como se mencionó previamente, se pueden agregar o quitar):
caso_cierre_fecha
: fecha cuando se cerró el reclamo. Corresponde a los nombres originales decaso_fecha_cierre
yfecha_resultado
.caso_creacion_fecha
: fecha cuando se creó el reclamo. Corresponde al nombre original decaso_fecha_creacion
.caso_numero
: número del caso, equivalente a un identificador único. Corresponde a los nombres originales decaso_numero
ynumero_caso
.categoria_motivo_legal
: inicialmente contenía 371 motivos únicos originales, que fueron reducidos a 83, después de aplicar la conversión utilizando el árbol de motivos legales (sección 2.2.1). Esta es una subcategoría demotivo_legal_descripcion
. Corresponde a las nombres originales decat_motiv_legal
,categoria_mercado_prov
,categoria_mercado_sucursal
,categoria_ml
ycategoria_motivo_legal
.cierre_corto
: resume el tipo de cierre que se le dio al caso (el proveedor acoge, no acoge, no responde, entre otros). Corresponde al nombre original decierre_corto
.consumidor_comuna
: nombre de la comuna de la persona que realiza el reclamo. En la sección 2.2.2) se especifican mayores detalles respecto a su tratamiento, pero esta columna pasa a llamarsecut_comuna
. Corresponde a los nombres originales decomuna_consumidor
ycons_comuna
. Actualmente no está en uso, pero se conserva por futuras necesidades.consumidor_genero
: indica el género del reclamante (masculino, femenino o prefiero no decirlo). Corresponde a los nombres originales decons_genero
ygenero_consumidor
.consumidor_id
: número único que identifica al consumidor. Corresponde a los nombres originales decons_id
yid_consumidor
. Actualmente no está en uso, por carecer de información útil, pero se conserva por futuras necesidades.estado_caso_nombre
: indica si el caso está ingresado, en proceso o cerrado. Corresponde a los nombres originales deestado_caso
yestado_caso_nombre
.mercado_tipo_producto_nombre
: actualmente cuenta con 180 categorías de productos y depende de. Corresponde a los nombres originales demercado_tipo_producto_nombre
ytipo_prod
.motivo_legal_descripcion
: inicialmente contenía 48 motivos únicos, reorganizados en 17, después de aplicar la conversión utilizando el árbol de motivos legales. Describe el motivo legal principal del reclamo. Corresponde a los nombres originales demotivo_legal
ymotivo_legal_descripcion
.proveedor_mercado_categoria_nombre
: actualmente tiene 30 categorías de industrias (bancos, tarjetas multitiendas, clínicas, etc). Corresponde a los nombres originales demercado_categoria_nombre
,nombre_categoria_mercado
yprov_mercado_categoria_nombre
.proveedor_mercado_nombre
: representa el mercado al cual pertenece el reclamo. Actualmente sólo se utiliza el mercado financiero, salud, seguros y previsión. Corresponde a los nombres originales demercado_nombre
,mercado_prov
,nombre_mercado
yprov_mercado_nombre
.proveedor_nombre_fantasia
: nombre de fantasía o razón social del proveedor (ver 2.3 para más detalles sobre la homologación de esta variable). Corresponde a los nombres originales denombre_fantasia_proveedor
yproveedor_nombre_fantasia
.proveedor_rut
: número entero, que representa el RUT (sin digito verificador) del proveedor. Corresponde a los nombres originales deproveedor_rut
yrut_proveedor
.reclamo_descripcion
: transcripción del reclamo presentado. Corresponde a los nombres originales dedescripcion_inconformidad
yreclamo_descripcion
.
Estos nombres estandarizados se definieron en base a un criterio de pertenencia, es decir, las columnas que hacen referencias al consumidor, parten con el nombre de consumidor; lo mismo con el proveedor, el caso, etc. Con esto se busca facilitar la búsqueda de variables de interés y facilitar su agrupamiento.
Los formatos para las variables de fechas son YYYY-mm-dd %H:%M:%S
o YYYY-mm-dd %H:%M
. YYYY
corresponde al año completo (ej: 1998), mm
al mes en formato númerico (01 a 12), ‘dd’ al día del mes (01 a 31), %H
a la hora (00 a 23), %M
a los minutos (00 a 59) y %S
a los segundos (00 a 59). Mayor información sobre los formatos de fechas pueden ser encontrados en https://stat.ethz.ch/R-manual/R-devel/library/base/html/strptime.html.