\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

5.3 Representación de los perfiles de columna

5.3.1 Análisis de componentes principales de los perfiles estandarizados

El análisis anterior de los perfiles de fila se puede repetir de la misma manera para los perfiles de columna. Los pasos se llevan a cabo en perfecta analogía con el caso anterior. Resumiendo, tendríamos que la inercia total se puede expresar como media ponderada de las distancias ji-cuadrado de los perfiles de columna (a su media), o equivalentemente, como las distancias euclídeas de los perfiles estandarizados (a su media correspondiente):

\[\frac{\chi^2}{n} =\sum_{j=1}^s f_{\bullet j} \sum_{i=1}^r \left(\frac{f_{ij}}{f_{\bullet j}\sqrt{f_{i \bullet}}}-\sqrt{f_{i \bullet}}\right)^2 =\sum_{j=1}^s f_{\bullet j} \left\|\bm{c_i^e}-\bm{m_x^e}\right\|^2.\]

Formamos la matriz \(\bm{Y}\), cuyas columnas son los perfiles de columna estandarizados:

\[\bm{Y}=\left(\frac{f_{ij}}{f_{\bullet j}\sqrt{f_{i \bullet}}}\right)_{i,j} =\left( \bm{c_1^e}, \ldots, \bm{c_s^e} \right)\] la cual se concibe como una matriz de observaciones transpuesta, donde cada fila es una variable y cada columna es un individuo, ponderado por la frecuencia marginal \(f_{\bullet j}\) que le corresponda. Entonces el vector de medias es: \(\bm{m_x^e}=\left(\sqrt{f_{1 \bullet}},\ldots,\sqrt{f_{r \bullet}}\right)^{\prime}\) y la matriz de covarianzas:

\[\bm{\Sigma_s}=\bm{Y D_s Y^{\prime}} - \bm{m_x^e} {\bm{m_x^e}}^{\prime}\] siendo \(\bm{D_s}=\textnormal{diag}(f_{\bullet 1},\ldots,f_{\bullet s})\).

De nuevo se aplica el Análisis de Componentes Principales, mediante la diagonalización de la matriz de covarianzas \(\bm{\Sigma_s}\). Surge entonces el resultado siguiente.

Resultado. La matriz \(\bm{Y D_s Y^{\prime}}\) es una matriz simétrica y semidefinida positiva, y tiene al vector \(\bm{m_x^e}\) como vector propio de valor propio uno.

En base a este resultado, \(\bm{m_x^e}{\bm{m_x^e}}^{\prime}\) no es más que el primer término de la descomposición espectral de \(\bm{Y D_s Y^{\prime}}\), \(\bm{m_x^e}\) es un autovector de \(\bm{\Sigma_s}\) de autovalor cero, y el resto de autovectores y autovalores de \(\bm{\Sigma_s}\) e \(\bm{Y D_s Y^{\prime}}\) coinciden.

De nuevo se pierde una dimensión en el espacio de los perfiles de columna, puesto que verifican una restricción lineal obvia, consecuencia de que sus componentes suman uno. Esta restricción se convierte en los perfiles de columna estandarizados, en que pertenecen al hiperplano cuyo vector característico es \(\bm{m_x^e}\). Así, \[\frac{\chi^2}{n} =\mbox{traza} \left(\bm{Y D_s Y^{\prime}}\right)-1 =\mbox{traza} \left(\bm{\Sigma_s}\right).\]

Entonces, la diagonalización conduce a

\[\bm{Y D_s Y^{\prime}}=\bm{W}\bm{\Lambda} \bm{W}^{\prime}\] siendo \(\bm{W}=\left( \bm{m_x^e}, \bm{w_2}, \ldots, \bm{w_r}\right)\) la matriz cuyas columnas son los autovectores y \(\bm{\Lambda}\) la la matriz diagonal que contiene los autovalores correspondientes ordenados de mayor a menor, es decir \(\bm{\Lambda}=\mbox{diag} \left(1,\lambda_2,\ldots,\lambda_r \right)\). Ahora las coordenadas de las columnas respecto de las componentes principales vendrán dadas por las filas segunda, tercera y sucesivas de la matriz

\[\bm{B}=\bm{W}^{\prime}\bm{Y} =\left(\begin{array}{c} {\bm{m_x^e}}^{\prime} \\ \bm{w_2}^{\prime} \\ \vdots \\ \bm{w_r}^{\prime} \end{array} \right) \left(\bm{c_1^e}, \ldots, \bm{c_s^e} \right) =\left(\begin{array}{ccc} 1& \cdots & 1 \\ b_{21} & \cdots & b_{2s} \\ b_{31} & \cdots & b_{3s} \\ \vdots & \ddots & \vdots \\ b_{r1} & \cdots & b_{rs} \end{array}\right).\]

Estas coordenadas verifican las siguientes propiedades:

  • Las coordenadas tienen media ponderada cero. \(\left(\ \sum_{j=1}^s f_{\bullet j} b_{ij}=0\ \ \forall i\in\{2,\ldots,r\}\ \right).\)

  • Las distancias euclídeas entre los vectores de coordenadas de dos columnas coincide con la distancia euclídea entre los correspondientes perfiles estandarizados, la cual a su vez coincidía con la distancia ji cuadrado entre los perfiles de columna originarios.

5.3.2 Contribuciones

De la segunda propiedad se deduce que la distancia al centroide, esto es, al perfil medio, de cada perfil de columna se puede expresar:

\[d^2(\bm{c_j},\bm{m_x})=\sum_{k=2}^r b_{k j}^2\] y esto, multiplicado por \(f_{\bullet j}\), lo concebimos como la contribución del perfil de columna \(j\)-ésimo a la inercia total.

El análisis de componentes principales de los perfiles estandarizados da lugar a una descomposición de la inercia como suma de los autovalores

\[\frac{\chi^2}{n}=\mbox{traza}(\bm{\Sigma_s})=\lambda_2+\lambda_3+\ldots+\lambda_r\] siendo

\[\lambda_k = \bm{w_k}^{\prime} \bm{Y D_s Y^{\prime}} \bm{w_k} = \sum_{j=1}^r f_{\bullet j} b_{kj}^2.\] Para una fácil comprensión de la segunda igualdad, debe recordarse que \(\bm{w_k}^{\prime}\bm{Y}\) es el vector fila (fila \(k\)-ésima de la matriz \(\bm{B}\)) que contiene las cooordenadas de cada perfil de columna respecto de la componente \(k\)-ésima.

La tabla siguiente es una descomposición de la inercia total en perfiles de columna y componentes:

\[\begin{array}{c|ccccc|c} & \mbox{ Perfil 1} & \cdots & \mbox{ Perfil j} & \cdots & \mbox{ Perfil s} & \\ \hline \mbox{ Componente 2} & f_{\bullet 1} b_{21}^2 & \cdots & f_{\bullet j} b_{2j}^2 & \cdots & f_{\bullet s} b_{2s}^2 & \sum_{j=1}^s f_{\bullet j} b_{2j}^2 \\ \vdots & \vdots & & \vdots & & \vdots & \vdots \\ \mbox{ Componente k} & f_{\bullet 1} b_{k1}^2 & \cdots & f_{\bullet j} b_{kj}^2 & \cdots & f_{\bullet s} b_{ks}^2 & \sum_{j=1}^s f_{\bullet j} b_{kj}^2 \\ \vdots & \vdots & & \vdots & & \vdots & \vdots \\ \mbox{ Componente r} & f_{\bullet 1} b_{r1}^2 & \cdots & f_{\bullet j} b_{rj}^2 & \cdots & f_{\bullet s} b_{rs}^2 & \sum_{j=1}^s f_{\bullet j} b_{rj}^2 \\ \hline & \sum_{k=2}^r f_{\bullet 1} b_{k 1}^2 & \cdots & \sum_{k=2}^r f_{\bullet j} b_{k j}^2 & \cdots & \sum_{k=2}^r f_{\bullet s} b_{k s}^2 & \chi^2/n \end{array}\]

La proporción de variabilidad explicada si tomamos \((k-1)\) componentes (\(k\leq r\)) será:

\[\frac{\lambda_2+\ldots+\lambda_k}{\lambda_2+\ldots+\lambda_{r}}\] y sería como quedarnos con las \((k-1)\) primeras columnas (de la \(2\) a la \(k\)) tanto en la matriz \(\bm{B}\) como en la tabla anterior.