\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

4.3 Descomposición de la variabilidad, proporción de varianza explicada y criterios para la reducción de dimensión

Según acabamos de ver, desde un punto de vista matricial podemos contemplar el proceso de extracción de las componentes principales como la diagonalización de la matriz de covarianzas

\[\bm\Lambda=\bm{V}^{\prime} \bm\Sigma \bm{V}\] siendo \(\bm\Sigma=\textnormal{Cov}(\bm{x},\bm{x})\) la matriz de covarianzas del vector aleatorio original, \(\bm\Lambda=\textnormal{Cov}(\bm{z},\bm{z})\) la matriz de covarianzas de las componentes (que es diagonal) y \(\bm{V}=(\bm{v_1}\ldots,\bm{v_d})\) la matriz ortogonal cuyas columnas son los autovectores, que a su vez constituyen los coeficientes que definen las componentes.

Multiplicando por \(\bm{V}\) por la izquierda y por \(\bm{V}^{\prime}\) por la derecha, podemos expresar

\[\bm\Sigma=\bm{V}\bm\Lambda \bm{V}^{\prime}=\sum_{j=1}^d \lambda_j \bm{v_j}\bm{v_j}^{\prime}\] que se conoce como la descomposición espectral de la matriz \(\bm\Sigma\). Sabemos que

\[\textnormal{rango}(\bm\Sigma)=\textnormal{rango}(\bm\Lambda)=\mbox{``número de autovalores no nulos''}.\] A su vez también recordamos que el rango de la matriz de covarianzas coincide con la dimensión del menor espacio lineal que contiene al vector aleatorio (con probabilidad uno).

Así si el rango es \(k\), el vector aleatorio estaría contenido en un espacio lineal de dimensión \(k\), los \(k\) primeros autovalores son no nulos y los \((d-k)\) últimos son cero, y las \((d-k)\) últimas componentes tienen varianza cero. Se puede por tanto reducir la dimensión hasta \(k\) sin perder variabilidad. Sólo estaríamos cambiando el sistema de coordenadas.

Consideremos como medida global de variabilidad del vector aleatorio, la traza de su matriz de covarianzas. Nótese que no es más que la suma de las varianzas de las variables del vector, pero además tiene esta justificación como medida global de variabilidad

\[\textnormal{traza}(\bm\Sigma)=E(\| \bm{x}-E(\bm{x})\|^2).\] Es la media de las desviaciones cuadráticas respecto a la media y por tanto es una extensión natural de la varianza de una variable aleatoria.

De la descomposición espectral se deduce

\[\textnormal{traza}(\bm\Sigma)=\sum_{j=1}^d \lambda_j \textnormal{traza}(\bm{v_j}\bm{v_j}^{\prime})=\sum_{j=1}^d \lambda_j.\] La última igualdad es consecuencia de que los vectores \(\bm{v_j}\) son de norma uno.

Si extraemos una componente principal, obtenemos la variable aleatoria unidimensional

\[z_1=\bm{v_1}^{\prime} \bm{x}.\] Si en lugar de recoger todo el vector aleatorio, sólo aportamos \(z_1\) reduciendo la información a una variable unidimensional; junto con la simplificación, se produce una reducción de variabilidad, que pasa a ser

\[\textnormal{Var}(z_1)=\lambda_1.\] Decimos que el cociente

\[\frac{\lambda_1}{\lambda_1+\cdots+\lambda_d}\] es la proporción de variabilidad explicada por la primera componente principal.

Si en lugar de una única componente principal extraemos \(r\) componentes resulta

\[\frac{\lambda_1+\cdots+\lambda_r}{\lambda_1+\cdots+\lambda_r+\lambda_{r+1} +\cdots+\lambda_d}\] es la proporción de variabilidad explicada por las \(r\) primeras componentes principales.

Debemos decidir entre la simplificación que supone la reducción de la dimensión y la pérdida de información resultante de la variabilidad no explicada. Como criterios para tomar esta decisión, se suelen emplear los siguientes:

  • Criterio de la varianza explicada. Consiste en retener el número de componentes que conjuntamente expliquen una proporción de varianza establecida, habitualmente un 90% o 95% del total.

  • Criterio del valor propio (Kaiser). Retener sólo las componentes cuyos autovalores sean mayores que la media, esto es, mayores que \(\textnormal{traza}(\bm\Sigma)/d\). Estas componentes tendrían más varianza que la que corresponde en media a una variable, mientras que las demás componentes tienen menos.

  • Gráfico de sedimentación (screeplot). Representar en un gráfico los valores propios \(\lambda_1\geq \lambda_2\geq\cdots\geq\lambda_d\) en orden decreciente, y buscar un “codo” en el gráfico, entendiendo por codo un punto a partir del cual los valores propios son claramente más pequeños que los anteriores, y muy similares entre sí.

  • Retener un número preestablecido de componentes principales. Por ejemplo, es costumbre retener dos componentes, pues se pueden representar fácilmente en el plano.