3.4 Anexo metodológico

3.4.1 Cálculo del rango intercuantil

Para la búsqueda de valores atípicos, se utilizó como base la metodología utilizada por los gráficos de cajas (box-plots) que toman en cuenta un cierto factor de desviación con respecto al rango intercuartil (IQR), dentro de una serie de tiempo definida por algún agrupamiento. El IQR corresponde al valor de las observaciones comprendidas entre el cuartil 1 (\(Q.(25)\)) y 3 (\(Q.(75)\)) (Tukey 1977; Chambers et al. 1983). Se utilizó un factor de desviación de \(1.5\).

De esta forma, cualquier valor es considerado atípico si está por sobre \(Q.(75) + 1.5*\text{IQR}\) o por debajo de \(Q.(25) - 1.5*\text{IQR}\), con IQR = \(Q.(75) - Q.(25)\).

Es posible que el usuario pueda modificar este valor junto con el IQR, para incrementar o disminuir la exigencia para clasificar valores atípicos.

Los cuartiles, son un caso especial de cuantil, los cuales fueron calculados según la ecuación (3.1) que es el método más recomendado (Hyndman and Fan 1996), por ser aproximádamente insesgado, independientemente de la distribución de los datos.

\[\begin{align} \tag{3.1} p_k = \left ( k - \frac{1}{3} \right) / \left ( n + \frac{1}{3} \right) \end{align}\]

Adicionalmente a esos cuartiles, se calcularon el mínimo, máximo y la mediana, lo que sumados a los cuartiles 1 y 3, se conoce como el resumen de cinco números (Hoaglin, Mosteller, and Tukey 1983). También fueron calculados la media y su desviación estándar, y el número de periodos con valores válidos. Cabe destacar que si bien estos valores son calculados, no son utilizados para conformar el ranking final.

3.4.2 Estandarización

Al momento de comparar cualquier combinación de agrupamiento con su respectiva agrupación basal, dada las diferencias de magnitudes en que se podría incurrir, los datos fueron previamente centrados y escalados (estandarización Z-score), utilizando la media y la desviación estándar (ecuación (3.2)). Este método es preferible a otros, debido a que preserva de mejor manera la estructura de los datos cuando se está en presencia de valores atípicos (outliers), que es la situación esperable en este caso (Han and Kamber 2012; Raschka 2016). La estandarización min-max es preferible cuando es necesario contar con valores en un rango definido (0 a 1 por ejemplo).

\[\begin{align} \tag{3.2} z_i = \frac{ X_i - \hat{\mu} }{ \hat{\sigma} } ~~ \text{, con} ~ \hat{\mu} = \frac{1}{n}\sum_{i=1}^n ~\text{y}~ \hat{\sigma}=\sqrt{\frac{1}{n-1} \sum_{i=1}^n (X_i - \hat{\mu})^2 } \end{align}\]

Referencias

Chambers, John M., William S. Cleveland, Beat Kleiner, and Paul A. Tukey, eds. 1983. Graphical Methods for Data Analysis. The Wadsworth Statistics/Probability Series. Belmont, Calif.: Wadsworth [u.a.].

Han, Jiawei, and Micheline Kamber. 2012. Data Mining: Concepts and Techniques. 3rd ed. Burlington, MA: Elsevier.

Hoaglin, David C., Frederick Mosteller, and John Wilder Tukey, eds. 1983. Understanding Robust and Exploratory Data Analysis. Wiley Series in Probability and Mathematical Statistics. New York: Wiley.

Hyndman, Rob J., and Yanan Fan. 1996. “Sample Quantiles in Statistical Packages.” The American Statistician 50 (4): 361–65. https://doi.org/10.2307/2684934.

Raschka, Sebastian. 2016. Python Machine Learning: Unlock Deeper Insights into Machine Learning with This Vital Guide to Cutting-Edge Predictive Analytics. Community Experience Distilled. Birmingham Mumbai: Packt Publishing open source.

Tukey, John Wilder. 1977. Exploratory Data Analysis. Addison-Wesley Series in Behavioral Science. Reading, Mass: Addison-Wesley Pub. Co.