Apartado 3 Metodología

Una observación atípica (fuera de rango u outlier) es definida como:

“una observación que se desvía en tal grado de otras observaciones, que despierta sospechas de que fue generada por un mecanismo diferente” (Hawkins 1980; Han and Kamber 2012).

Una de las principales dificultades, es que se debe lidear con una cantidad importante de series de datos en paralelo, cada una con sus propios comportamientos y propiedades.

Existen varias metodologías para encontrar valores atípicos por medio de análisis descriptivos y/o visuales (Tukey 1977; Chambers et al. 1983; Hautamaki, Karkkainen, and Franti 2004; Mingqiang, Hui, and Qian 2012; Raschka 2016), pero en casos como este, donde el conjunto de datos es grande y supeditado a varias variables y subdivisiones, hacer un análisis visual para cada situación no es viable.

También es posible encontrar modelos probabilísticos y estadísticos, junto con modelos lineales, para encontrar outliers. Sin embargo, estos asumen una serie de supuestos (distribución, dependencia/independencia) que con las características multi seriales de los datos, es difícil de asumir a priori (Petrovskiy 2003; Hodge and Austin 2004; Han and Kamber 2012; Aggarwal 2017).

Algunas técnicas de clasificación no supervisada se basan en la cercanía/lejanía, y los más populares en distancias (como los clusters) para encontrar valores atípicos. Sin embargo, al ser un conjunto de datos heterogéneo y el espacio dimensional variable4, dependiendo de las métricas que se quieran calcular, no es posible determinar a priori parámetros de inicio apropiados para configurar los algoritmos de búsqueda, siendo que el resultado de los mismos depende en gran medida de estos (Petrovskiy 2003; Hodge and Austin 2004; Birant and Kut 2006; Duan et al. 2009; Han and Kamber 2012). Por otro lado, bajo algunas técnicas se dificulta la identificación de las variables que determinan que dicho registro es una observación fuera de rango, sin considerar que muchos de estos algoritmos están diseñados para encontrar ciertas “formas”, que son imposibles de identificar previamente (Aggarwal 2017).

Por ello se hace necesario desarrollar una metodología que permita automatizar el proceso, pero que a la vez sea robusta, y que permita analizar una gran volumen de series temporales de diferente naturaleza, sobre todo considerando el gran universo de diferentes tipos de mercados, industrias, proveedores y productos. Por último, también es necesario que esta metodología permita identificar con precisión cuál es la causa de que un valor sea catalogado o no como atípico, es decir, no sólo interesa dónde/cuándo, si no que también cuál.

A continuación, se describirá la metodología del funcionamiento de la librería, partiendo por como se agrupan los reclamos, cómo se buscan los valores atípicos y finalizando con la generación del ranking.

Referencias

Aggarwal, Charu C. 2017. Outlier Analysis. Cham: Springer.

Birant, Derya, and Alp Kut. 2006. “Spatio-Temporal Outlier Detection in Large Databases.” Journal of Computing and Information Technology 14 (4): 291. https://doi.org/10.2498/cit.2006.04.04.

Chambers, John M., William S. Cleveland, Beat Kleiner, and Paul A. Tukey, eds. 1983. Graphical Methods for Data Analysis. The Wadsworth Statistics/Probability Series. Belmont, Calif.: Wadsworth [u.a.].

Duan, Lian, Lida Xu, Ying Liu, and Jun Lee. 2009. “Cluster-Based Outlier Detection.” Annals of Operations Research 168 (1): 151–68. https://doi.org/10.1007/s10479-008-0371-9.

Han, Jiawei, and Micheline Kamber. 2012. Data Mining: Concepts and Techniques. 3rd ed. Burlington, MA: Elsevier.

Hautamaki, V., I. Karkkainen, and P. Franti. 2004. “Outlier Detection Using K-Nearest Neighbour Graph.” In Proceedings of the 17th International Conference on Pattern Recognition, 2004. ICPR 2004., 430–33 Vol.3. Cambridge, UK: IEEE. https://doi.org/10.1109/ICPR.2004.1334558.

Hawkins, D. M. 1980. Identification of Outliers. Dordrecht: Springer Netherlands.

Hodge, Victoria, and Jim Austin. 2004. “A Survey of Outlier Detection Methodologies.” Artificial Intelligence Review 22 (2): 85–126. https://doi.org/10.1023/B:AIRE.0000045502.10941.a9.

Mingqiang, Zhou, Huang Hui, and Wang Qian. 2012. “A Graph-Based Clustering Algorithm for Anomaly Intrusion Detection.” In 2012 7th International Conference on Computer Science & Education (ICCSE), 1311–4. Melbourne, Australia: IEEE. https://doi.org/10.1109/ICCSE.2012.6295306.

Petrovskiy, M. I. 2003. “Outlier Detection Algorithms in Data Mining Systems.” Programming and Computer Software 29 (4): 228–37. https://doi.org/10.1023/A:1024974810270.

Raschka, Sebastian. 2016. Python Machine Learning: Unlock Deeper Insights into Machine Learning with This Vital Guide to Cutting-Edge Predictive Analytics. Community Experience Distilled. Birmingham Mumbai: Packt Publishing open source.

Tukey, John Wilder. 1977. Exploratory Data Analysis. Addison-Wesley Series in Behavioral Science. Reading, Mass: Addison-Wesley Pub. Co.


  1. En el presente caso, normalmente se ha oscilado entre 5 a 12 dimensiones/variables.