\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

5.1 Test ji-cuadrado de independencia y distancia ji-cuadrado entre perfiles

Si el análisis de correspondencias pretende estudiar la relación entre las dos variables, la situación extrema de no relación se producirá cuando las dos variables sean independientes. Esto es equivalente a que la distribución conjunta resulte del producto de las marginales. En términos de las frecuencias observadas, ese producto de marginales da lugar a lo que se suele conocer como frecuencias esperadas, que son:

\[n_{i\bullet}n_{\bullet j}/n.\]

A partir de aquí se construye el estadístico ji-cuadrado para contrastar la independencia comparando las frecuencias observadas con las esperadas:

\[\chi^2=\sum_{i=1}^r\sum_{j=1}^s \frac{\left(n_{ij}-n_{i\bullet}n_{\bullet j}/n\right)^2}{n_{i\bullet}n_{\bullet j}/n}.\]

Bajo la hipótesis nula de independencia, el estadístico ji-cuadrado tiene una distribución ji-cuadrado con \((r-1)\times (s-1)\) grados de libertad.

Además del contraste de independencia, podemos pensar que el estadístico ji-cuadrado es una medida de discrepancia respecto de la independencia, y por tanto es una medida de asociación entre las categorías de ambas variables. Con este fin, vamos a expresar el estadístico ji–cuadrado en términos de frecuencias relativas:

\[\chi^2=\sum_{i=1}^r\sum_{j=1}^s \frac{\left(f_{ij}n-f_{i\bullet}f_{\bullet j}n\right)^2}{f_{i\bullet}f_{\bullet j}n} =n\sum_{i=1}^r\sum_{j=1}^s \frac{\left(f_{ij}-f_{i\bullet}f_{\bullet j}\right)^2}{f_{i\bullet}f_{\bullet j}}.\]

Ahora observamos que el estadístico ji-cuadrado, representado en cierta forma, admite una interpretación interesante:

\[\frac{\chi^2}{n}=\sum_{i=1}^r\sum_{j=1}^s \frac{\left(f_{i\bullet}\frac{f_{ij}}{f_{i\bullet}} -f_{i\bullet}f_{\bullet j}\right)^2}{f_{i\bullet}f_{\bullet j}} =\sum_{i=1}^r f_{i\bullet} \sum_{j=1}^s \left(\frac{f_{ij}}{f_{i\bullet}}-f_{\bullet j}\right)^2 \frac{1}{f_{\bullet j}}=\sum_{i=1}^r f_{i\bullet} d^2(\bm{r_i},\bm{m_y})\]

siendo \(\bm{r_i}=\left(\frac{f_{i1}}{f_{i\bullet}},\ldots,\frac{f_{is}}{f_{i\bullet}}\right)^\prime{}\) la distribución de \(y\) condicionada a \(x=x_i\), también conocida como perfil de fila \(i\)-ésimo; \(\bm{m_y}=\left(f_{\bullet 1},\ldots,f_{\bullet s}\right)^\prime{}\) la distribución marginal de \(y\); y \(d^2(\bm{r_i},\bm{m_y})\) una distancia entre el perfil \(i\)-ésimo y la distribución marginal. A esta distancia se la conoce como distancia ji-cuadrado y a \(\chi^2/n\) como inercia.

La tabla siguiente contiene los perfiles de fila, junto con la distribución marginal de \(y\):

\[\begin{array}{c|ccccc|c} x\backslash y & y_1 & \ldots & y_j & \ldots & y_s & \\ \hline x_1 & f_{11}/f_{1\bullet} & \cdots & f_{1j}/f_{1\bullet} & \cdots & f_{1s}/f_{1\bullet} & 1 \\ \vdots & \cdots & \cdots & \cdots & \cdots & \cdots & \vdots \\ x_i & f_{i1}/f_{i\bullet} & \cdots & f_{ij}/f_{i\bullet} & \cdots & f_{is}/f_{i\bullet} & 1 \\ \vdots & \cdots & \cdots & \cdots & \cdots & \cdots & \vdots \\ x_r & f_{r1}/f_{r\bullet} & \cdots & f_{rj}/f_{r\bullet} & \cdots & f_{rs}/f_{r\bullet} & 1 \\ \hline & f_{\bullet 1} & \cdots & f_{\bullet j} & \cdots & f_{\bullet s} & 1 \\ \end{array}\]

De este modo, el estadístico ji-cuadrado (dividido entre n) es una media ponderada de las distancias ji-cuadrado de los perfiles de fila a la distribución marginal de \(y\). Si observamos que la distribución marginal se puede obtener como media de los perfiles de fila, veremos el estadístico ji-cuadrado como una medida de variabilidad de los perfiles en torno a su media, \(\bm{m_y}\). Bajo hipótesis de independencia, los perfiles han de ser muy similares entre sí y, por tanto, muy similares a la distribución marginal, dando lugar a un valor pequeño de la variabilidad, medida por el estadístico ji-cuadrado.

De igual modo se puede interpretar el estadístico ji-cuadrado en términos de distancias ji-cuadrado entre perfiles de columna:

\[\frac{\chi^2}{n}=\sum_{i=1}^r\sum_{j=1}^s \frac{\left(f_{\bullet j}\frac{f_{ij}}{f_{\bullet j}} -f_{i\bullet}f_{\bullet j}\right)^2}{f_{i\bullet}f_{\bullet j}} =\sum_{j=1}^s f_{\bullet j} \sum_{i=1}^r \left(\frac{f_{ij}}{f_{\bullet j}}-f_{i \bullet}\right)^2 \frac{1}{f_{i \bullet}}=\sum_{j=1}^s f_{\bullet j} d^2(\bm{c_j},\bm{m_x})\]

siendo \(\bm{c_j}=\left(\frac{f_{1j}}{f_{\bullet j}},\ldots,\frac{f_{rj}}{f_{\bullet j}}\right)^\prime{}\) la distribución de \(x\) condicionada a \(y=y_j\), también conocida como perfil de columna \(j\)-ésimo; \(\bm{m_x}=\left(f_{1 \bullet},\ldots,f_{r \bullet}\right)^\prime{}\) la distribución marginal de \(x\); y \(d^2(\bm{c_j},\bm{m_x})\) la distancia ji-cuadrado entre el perfil \(j\)-ésimo y la distribución marginal.

La tabla siguiente contiene los perfiles de columna, junto con la distribución marginal de \(x\):

\[\begin{array}{c|ccccc|c} x\backslash y & y_1 & \ldots & y_j & \ldots & y_s & \\ \hline x_1 & f_{11}/f_{\bullet 1} & \vdots & f_{1j}/f_{\bullet j} & \vdots & f_{1s}/f_{\bullet s} & f_{1 \bullet} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ x_i & f_{i1}/f_{\bullet 1} & \vdots & f_{ij}/f_{\bullet j} & \vdots & f_{is}/f_{\bullet s} & f_{i \bullet} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ x_r & f_{r1}/f_{\bullet 1} & \vdots & f_{rj}/f_{\bullet j} & \vdots & f_{rs}/f_{\bullet s} & f_{r \bullet} \\ \hline & 1 & \cdots & 1 & \cdots & 1 & 1 \\ \end{array}\]

El análisis de correspondencias es un procedimiento de representación e interpretación de la variabilidad resultante del estadístico ji-cuadrado. Por tanto, si aceptamos la hipótesis de independencia no procede llevar a cabo un Análisis de Correspondencias. En caso de rechazo, habremos concluido que existe asociación, y mediante el Análisis de Correspondencias se realiza un estudio de dicha asociación.