2.2 Homologación en base a variables externas
Una primera fase está definida por la homologación que se realiza en base a fuentes de información externas a la base de datos de reclamos de SERNAC. Algunas de ellas guardan relación directa, pero otras corresponden a información proveniente de otros organismos del Estado (como el Servicio de Impuestos Internos y el Ministerio de Energía).
2.2.1 Motivos legales
Uno de los principales problemas iniciales, fue la gran diversidad existente de motivos legales, y sus subcategorías (motivo_legal_descripcion
y categoria_motivo_legal
). Gracias al trabajo conjunto con SERNAC, se construyó un diccionario (árbol) de equivalencias, entre los motivos legales originales y una nueva nomenclatura que permitiera condensarlos de manera apropiada, según el juicio experto del área encargada.
Una muestra de dicho árbol se puede apreciar en la tabla 2.2, el cual está contenido en el archivo Excel arbol_de_mercado
. Para agregar nuevos motivos legales, basta con agregar nuevas filas a dicho archivo y asegurarse de usarlo al momento de llamar a las funciones de homologación. Esta etapa, no agrega nuevas columnas y modifica las ya existentes.
MERCADO | MOTIVO LEGAL | CATEGORIA LEGAL | PROPUESTA DE FUSION MOTIVO LEGAL | PROPUESTA DE FUSION CATEGORIA LEGAL |
---|---|---|---|---|
SEGUROS | TRATO DE PERSONAL Y DISCRIMINACION | MALA ATENCION DEL VENDEDOR O EJECUTIVO | DISCRIMINACIÓN Y MALTRATO | TRATO INDIGNO POR PARTE DE DEPENDIENTES DEL PROVEEDOR |
FINANCIEROS | COBRANZA EXTRAJUDICIAL NO CORRESPONDE | OTRAS EMPRESAS DE CREDITO | COBRANZA EXTRAJUDICIAL | REALIZACIÓN DE GESTIONES COBRANZA PROHIBIDAS |
SEGUROS | OBLIGACIONES DEL PROVEEDOR | NO ENTREGA DOCUMENTO QUE JUSTIFICA LA VENTA | PROBLEMAS EJECUCIÓN CONTRATO | NEGATIVA DEL PROVEEDOR PARA CUMPLIR SU OBLIGACIÓN |
FINANCIEROS | PROMOCIONES Y OFERTAS | PUBLICIDAD NO DESEADA | PROMOCIONES Y OFERTAS | INCUMPLIMIENTO PROMOCIONES Y OFERTAS |
Motivos legales que no estén en este árbol, son añadidos al archivo arbol_mercado_a_corregir.csv
que se genera en el directorio desde donde se está ejecutando el programa. Este archivo puede ser explorado y revisado desde Excel, para luego hacer las modificaciones pertinentes al arbol_de_mercado
y correr el proceso nuevamente.
2.2.2 Códigos comunales
Debido a que las comunas fueron añadadias a la base de datos utilizando el nombre de la misma, se detectaron varios inconsistencias sobre ellas. Es recomendable utilizar una codificación estándar, menos propensa a errores, como el código único territorial. La versión en formato Excel descargable del archivo, se obtiene desde http://datos.energiaabierta.cl/rest/datastreams/250790/data.xls?applyFormat=1, que es la que se ha estado ocupando hasta ahora, bajo el nombre de codigos_comunales.xlsx
. Si nuevas comunas o regiones son incorporadas/modificadas, modificar el archivo, manteniendo el formato (nombre de las columnas y tipo de datos).
Algunas comunas como CON CON y SAN VICENTE DE TAGUA TAGUA, oficialmente son reportadas como Concón y San Vicente, por lo que primero se debe lidear con este tipo de incosistencias para lograr obtener el código territorial correcto.
- Se transforman todos los nombres a minúsculas.
- Se reemplazan caracteres latinos por su equivalente (tildes por la vocal sin tilde, ñ por n).
- Se comparan los nombres de ambas tablas, y a los que coinciden se les asigna el código territorial comunal.
- Aquellos que no coinciden, se revisan de manera manual y se arma un diccionario de equivalencias (actualmente tiene 14, entre ellas las dos comunas utilizadas de ejemplo), y luego se les asigna el código territorial comunal.
- Del código territorial comunal, se extrae el código de la provincia y de la región.
Los nuevos valores son almacenados en las columnas: cut_comuna
, cut_provincia
, cut_region
. Las columas originales son descartadas.
2.2.3 Datos del SII
Originalmente se incorporó esta información pensando en el modelo de riesgo y se conserva por si se desea realizar algún tipo de análisis tomando en cuenta el tamaño de la empresa. Los datos deben ser previamente descargados en formato csv desde http://www.sii.cl/sobre_el_sii/nominapersonasjuridicas.html. Hasta ahora se han usado datos desde http://www.sii.cl/sobre_el_sii/nomina_empresas_pjuridicas_at2018.xlsx y http://www.sii.cl/estadisticas/nominas/empresas_perjurihistorico.zip.
Por cada RUT en la base de datos del SII, se elige la información más actual (debido a que una misma empresa puede figurar en años/periodos diferentes). Luego se unen ambas bases de datos a través del RUT del proveedor, sin dígito verificador y a la base de datos princiapl se le agrega la columna tramo_ventas
, que abarca un total de 13 niveles (ver tabla 2.3). Más información sobre esta variable puede ser encontrada en el sitio del SII.
Código | Tramo de ventas | Rango de ventas |
---|---|---|
1 | SIN VENTAS | 0 |
2 | MICRO 1 | 0,01 UF a 200 UF |
3 | MICRO 2 | 200,01 UF a 600 UF |
4 | MICRO 3 | 600,01 UF a 2.400 UF |
5 | PEQUEÑA 1 | 2.400,01 UF a 5.000 UF |
6 | PEQUEÑA 2 | 5.000,01 UF a 10.000 UF |
7 | PEQUEÑA 3 | 10.000,01 UF a 25.000 UF |
8 | MEDIANA 1 | 25.000,01 UF a 50.000 UF |
9 | MEDIANA 2 | 50.000,01 UF a 100.000 UF |
10 | GRANDE 1 | 100.000,01 UF a 200.000 UF |
11 | GRANDE 2 | 200.000,01 UF a 600.000 UF |
12 | GRANDE 3 | 600.000,01 UF a 1.000.000 UF |
13 | GRANDE 4 | Más de 1.000.000 UF |
De ser necesario, se pueden añadir otras variables que sean de interés desde los datos del SII.