5.2 Representación de los perfiles de fila
5.2.1 Perfiles de fila estandarizados
Pensemos en la descomposición de la ji-cuadrado a través de los perfiles de fila. Los perfiles de fila se pueden concebir como vectores del espacio \({\Bbb R}^s\) y su variabilidad se encuentra medida a través de la distancia ji-cuadrado en dicho espacio:
\[d^2(\bm{u},\bm{v})=\sum_{j=1}^s (u_j-v_j)^2 \frac{1}{f_{\bullet j}}\] siendo \(\bm{u}=(u_1,\ldots,u_s)^\prime{}\) y \(\bm{v}=(v_1,\ldots,v_s)^\prime{}\) vectores de \({\Bbb R}^s\). Si dividimos las coordenadas de cada perfil de fila por \(\left(\frac{1}{\sqrt{f_{\bullet 1}}},\ldots,\frac{1}{\sqrt{f_{\bullet s}}}\right)\) entonces podemos considerar los vectores
\[\bm{r_i^e}=\left(\frac{f_{i1}}{f_{i\bullet}\sqrt{f_{\bullet 1}}},\ldots, \frac{f_{is}}{f_{i\bullet}\sqrt{f_{\bullet s}}}\right)^\prime{} \qquad i\in \{1,\ldots,r\}\] dotados ahora de la distancia euclídea ordinaria, ya que la inercia total se puede expresar como la media ponderada de las distancias euclídeas de estos vectores a su media: \[\frac{\chi^2}{n} =\sum_{i=1}^r f_{i\bullet} \sum_{j=1}^s \left(\frac{f_{ij}}{f_{i\bullet}\sqrt{f_{\bullet j}}}-\sqrt{f_{\bullet j}}\right)^2.\]
Esto coincide con la traza de la matriz de covarianzas de los perfiles estandarizados, como medida global de variabilidad, y reduce el estudio a un análisis de componentes principales sobre los perfiles estandarizados.
5.2.2 Análisis de componentes principales de los perfiles estandarizados
Formemos una matriz cuyas filas sean los perfiles de fila estandarizados:
\[\bm{X}=\left(\frac{f_{ij}}{f_{i\bullet}\sqrt{f_{\bullet j}}}\right)_{i,j} =\left(\begin{array}{c} {\bm{r_1^e}}^\prime{} \\ \vdots \\ {\bm{r_r^e}}^\prime{} \end{array}\right).\]
Si esta matriz se piensa como una matriz de observaciones donde cada columna es una variable y cada fila es un individuo, ponderado por la frecuencia marginal \(f_{i\bullet}\) que le corresponda, entonces el vector de medias es: \(\bm{m_y^e}=\left(\sqrt{f_{\bullet 1}},\ldots,\sqrt{f_{\bullet s}}\right)^\prime{}\) y la matriz de covarianzas:
\[\bm{\Sigma_r}=\bm{X}^{\prime} \bm{D_r} \bm{X} - \bm{m_y^e}{\bm{m_y^e}}^\prime{}\] siendo \(\bm{D_r}=\textnormal{diag}(f_{1\bullet},\ldots,f_{r\bullet})\).
El análisis de componentes principales de los perfiles de fila estandarizados pasa por diagonalizar la matriz de covarianzas \(\bm{\Sigma_r}\). Para ello, el resultado que sigue es muy útil.
Resultado. La matriz \(\bm{X^{\prime} D_r X}\) es una matriz simétrica y semidefinida positiva, y tiene al vector \(\bm{m_y^e}\) como vector propio de valor propio uno.
En base a este resultado, \(\bm{m_y^e}(\bm{m_y^e})^{\prime}\) no es más que el primer término de la descomposición espectral de \(\bm{X^{\prime} D_r X}\), \(\bm{m_y^e}\) es un autovector de \(\bm{\Sigma_r}\) de autovalor cero, y el resto de autovectores y autovalores de \(\bm{\Sigma_r}\) y \(\bm{X^{\prime} D_r X}\) coinciden.
Esta pérdida de una dimensión en el espacio de los perfiles de fila se debe a que los perfiles de fila verifican:
\[\sum_{j=1}^s \frac{f_{i j}}{f_{i\bullet}}=1 \qquad \forall i\in\{1,\ldots,r\} \qquad \left[\bm{r_i}^\prime{}\bm{1_s}=1\right]\] y, en consecuencia, los perfiles de fila estandarizados:
\[\sum_{j=1}^s \sqrt{f_{\bullet j}} \frac{f_{i j}}{\sqrt{f_{\bullet j}}f_{i\bullet}}=1 \qquad \forall i\in\{1,\ldots,r\} \qquad \left[{\bm{r_i^e}}^\prime{}\bm{m_y^e}=1\right].\]
De este modo, en ambos casos se encuentran contenidos en un hiperplano, y el vector característico de dicho hiperplano (\(\bm{m_y^e}\) en el caso de los perfiles estandarizados) es un autovector cuyo autovalor asociado es cero.
Para completar la comprensión de este hecho, obtenemos una nueva expresión para la inercia:
\[\frac{\chi^2}{n} =\sum_{i=1}^r\sum_{j=1}^s \frac{\left(f_{ij}-f_{i\bullet}f_{\bullet j}\right)^2}{f_{i\bullet}f_{\bullet j}} =\sum_{i=1}^r\sum_{j=1}^s \frac{f_{ij}^2}{f_{i\bullet}f_{\bullet j}}-1=\textnormal{traza} \left(\bm{X^{\prime} D_r X}\right)-1 =\textnormal{traza} \left(\bm{\Sigma_r}\right).\] La segunda igualdad se obtiene desarrollando el cuadrado. Haber obtenido la traza de la matriz de covarianzas \(\bm{\Sigma_r}\) no es más que lo que cabía esperar. Así, pensemos en la diagonalización
\[\bm{X^{\prime} D_r X}=\bm{V}\bm{\Lambda}\bm{V}^{\prime}\] siendo \(\bm{V}=(\bm{m_y^e}, \bm{v_2}, \ldots, \bm{v_s})\) la matriz cuyas columnas son los autovectores y \(\bm\Lambda\) la matriz diagonal que contiene los autovalores correspondientes ordenados de mayor a menor, es decir, \(\bm\Lambda=\textnormal{diag} \left(1,\lambda_2,\ldots,\lambda_{s}\right)\). Entonces las coordenadas de las filas respecto de las componentes principales vendrán dadas por las columnas segunda, tercera y sucesivas de la matriz
\[\bm{A}=\bm{XV} =\left(\begin{array}{c} {\bm{r_1^e}}^\prime{} \\ \vdots \\ {\bm{r_r^e}}^\prime{} \end{array}\right) \left(\bm{m_y^e}, \bm{v_2}, \ldots, \bm{v_s}\right) =\left(\begin{array}{ccccc} 1 & a_{12} & a_{13} & \cdots & a_{1s} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & a_{r2} & a_{r3} & \cdots & a_{rs} \end{array}\right).\]
Estas coordenadas verifican las siguientes propiedades:
Las coordenadas tienen media ponderada cero. \(\left(\ \sum_{i=1}^r f_{i\bullet} a_{ij}=0\ \ \forall j\in\{2,\ldots,s\}\ \right).\)
Las distancias euclídeas entre los vectores de coordenadas de dos filas coincide con la distancia euclídea entre los correspondientes perfiles estandarizados, la cual a su vez coincidía con la distancia ji cuadrado entre los perfiles de fila originarios.
5.2.3 Contribuciones
De la segunda propiedad se deduce que la distancia al centroide, esto es, al perfil medio, de cada perfil de fila se puede expresar: \[d^2(\bm{r_i},\bm{m_y})=\sum_{k=2}^s a_{ik}^2\] y esto, multiplicado por \(f_{i\bullet}\), lo concebimos como la contribución del perfil de fila \(i\)-ésimo a la inercia total.
El análisis de componentes principales de los perfiles estandarizados da lugar a una descomposición de la inercia como suma de los autovalores
\[\frac{\chi^2}{n}=\textnormal{traza}(\bm{\Sigma_r})=\lambda_2+\lambda_3+\ldots+\lambda_s\] siendo
\[\lambda_k = \bm{v_k}^{\prime} \bm{X}^{\prime} \bm{D_r X v_k} = \sum_{i=1}^r f_{i\bullet} a_{ik}^2.\] Para una fácil comprensión de la segunda igualdad, debe recordarse que \(\bm{X v_k}\) es el vector columna (columna \(k\)-ésima de la matriz \(\bm{A}\)) que contiene las cooordenadas de cada perfil de fila respecto de la componente \(k\)-ésima.
La tabla siguiente es una descomposición de la inercia total en perfiles de fila y componentes:
\[\begin{array}{c|ccccc|c} & \mbox{ Componente 2} & \cdots & \mbox{ Componente k} & \cdots & \mbox{ Componente s} & \\ \hline \mbox{ Perfil 1} & f_{1\bullet} a_{12}^2 & \cdots & f_{1\bullet} a_{1k}^2 & \cdots & f_{1\bullet} a_{1s}^2 & \sum_{k=2}^s f_{1\bullet} a_{1k}^2 \\ \vdots & \vdots & & \vdots & & \vdots & \vdots \\ \mbox{ Perfil i} & f_{i\bullet} a_{i2}^2 & \cdots & f_{i\bullet} a_{ik}^2 & \cdots & f_{i\bullet} a_{is}^2 & \sum_{k=2}^s f_{i\bullet} a_{ik}^2 \\ \vdots & \vdots & & \vdots & & \vdots & \vdots \\ \mbox{ Perfil r} & f_{r\bullet} a_{r2}^2 & \cdots & f_{r\bullet} a_{rk}^2 & \cdots & f_{r\bullet} a_{rs}^2 & \sum_{k=2}^s f_{1\bullet} a_{rk}^2 \\ \hline & \sum_{i=1}^r f_{i\bullet} a_{i 2}^2 & \cdots & \sum_{i=1}^r f_{i\bullet} a_{i k}^2 & \cdots & \sum_{i=1}^r f_{i\bullet} a_{i s}^2 & \chi^2/n \end{array}\]
La proporción de variabilidad explicada si tomamos \((k-1)\) componentes (\(k\leq s\)) será: \[\frac{\lambda_2+\ldots+\lambda_k}{\lambda_2+\ldots+\lambda_{s}}\] y sería como quedarnos con las \((k-1)\) primeras columnas (de la \(2\) a la \(k\)) tanto en la matriz \(\bm{A}\) como en la tabla anterior.