\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

Capítulo5 Análisis de correspondencias

El Análisis de Correspondencias estudia la relación entre dos variables discretas a través de su distribución conjunta de frecuencias. Nos apoyaremos en el siguiente ejemplo.

Ejemplo. Encuesta de Población Activa (EPA, 2010). Datos de actividad y ocupación. La Encuesta de Población Activa, comúnmente conocida como EPA, es una encuesta que realiza el Instituto Nacional de Estadística (INE) y que recoge información sobre el empleo en España. Así, de esta encuesta se extraen los datos de actividad, ocupación y tasa de paro, que además se pueden relacionar con características de los individuos, como su sexo, edad o comunidad autónoma de residencia.

Vamos a estudiar la relación que puede haber entre la comunidad autónoma y una variable que indicará si el individuo es inactivo, está ocupado o está parado. Se define como inactivo a un individuo que no realiza trabajo remunerado, ni está en condiciones de realizarlo, bien por falta de capacidad (niños, ancianos o discapacitados) o por decisión propia. Ocupado es aquél que realiza trabajo remunerado, y parado es aquél que no lo realiza, aunque se encuentra en condiciones de trabajar y busca empleo. Los datos del fichero epa2010.csv recogen las frecuencias (en miles de personas) en cada comunidad autónomica y según su actividad (ocupado, parado o inactivo).

> dat <- read.csv("data/epa2010.csv", sep = ";", dec = ",")
> dat
            Comunidad.Autónoma Ocupados Parados Inactivos
1                    Andalucía   2849.1  1127.4    2794.2
2                       Aragón    540.3   103.3     467.5
3      Asturias, Principado de    398.0    79.6     451.8
4               Balears, Illes    450.0   128.6     320.3
5                     Canarias    771.2   314.4     663.8
6                    Cantabria    233.8    41.0     219.6
7              Castilla y León    996.8   186.8     962.4
8         Castilla - La Mancha    779.2   211.2     712.9
9                     Cataluña   3133.5   686.8    2256.8
...

Mediante un análisis de correspondencias seremos capaces de describir las relaciones que pueda haber entre la comunidad autónoma y la actividad, por ejemplo, indicando que en cierta comunidad autónoma hay un mayor porcentaje de parados, que en otra abundan especialmente los inactivos, o que en una tercera predominan los ocupados.

Las tablas de frecuencias, como la vista en el ejemplo, se conocen como tablas de contingencia. Reflejan la distribución conjunta del par formado por las dos variables discretas, que denotaremos \((x,y)\). Introduciendo cierta notación, podríamos expresar la tabla de contingencia así:

\[\begin{array}{c|ccccc|c} x\backslash y & y_1 & \ldots & y_j & \ldots & y_s & \\ \hline x_1 & n_{11} & \cdots & n_{1j} & \cdots & n_{1s} & n_{1\bullet} \\ \vdots & \vdots & & \vdots & & \vdots &\vdots \\ x_i & n_{i1} & \cdots & n_{ij} & \cdots & n_{is} & n_{i\bullet} \\ \vdots & \vdots & & \vdots & & \vdots &\vdots \\ x_r & n_{r1} & \cdots & n_{rj} & \cdots & n_{rs} & n_{r\bullet} \\ \hline & n_{\bullet 1} & \cdots & n_{\bullet j} & \cdots & n_{\bullet s} & n \\ \end{array}\]

siendo \(n_{ij}\) la frecuencia absoluta del par \((x_i,y_j)\), \((n_{1\bullet},\ldots,n_{i\bullet},\ldots,n_{r\bullet})\) la distribución marginal de la variable \(x\) y \((n_{\bullet 1},\ldots,n_{\bullet j},\ldots,n_{\bullet s})\) la distribución marginal de la variable \(y\).

Si dividimos entre el tamaño muestral, \(n\), obtenemos una tabla similar, pero ahora en términos relativos.

\[\begin{array}{c|ccccc|c} x\backslash y & y_1 & \ldots & y_j & \ldots & y_s & \\ \hline x_1 & f_{11} & \cdots & f_{1j} & \cdots & f_{1s} & f_{1\bullet} \\ \vdots & \vdots & & \vdots & & \vdots &\vdots \\ x_i & f_{i1} & \cdots & f_{ij} & \cdots & f_{is} & f_{i\bullet} \\ \vdots & \vdots & & \vdots & & \vdots &\vdots \\ x_r & f_{r1} & \cdots & f_{rj} & \cdots & f_{rs} & f_{r\bullet} \\ \hline & f_{\bullet 1} & \cdots & f_{\bullet j} & \cdots & f_{\bullet s} & 1 \\ \end{array}\]

siendo \(f_{ij}\) la frecuencia relativa del par \((x_i,y_j)\), \((f_{1\bullet},\ldots,f_{i\bullet},\ldots,f_{r\bullet})\) la distribución marginal de la variable \(x\) y \((f_{\bullet 1},\ldots,f_{\bullet j},\ldots,f_{\bullet s})\) la distribución marginal de la variable \(y\).

En primer lugar recordaremos los conceptos de independencia y asociación (lo contrario a la independencia) entre dos variables discretas. Veremos que el estadístico ji-cuadrado, que se usa habitualmente para contrastar la independencia, se puede interpretar como una medida de asociación. En este sentido, veremos que refleja la variabilidad entre distribuciones condicionadas.

A continuación abordaremos la representación de la asociación mediante un procedimiento de componentes principales y la representación simultánea de las categorías de las dos variables discretas, lo cual culmina los objetivos del análisis de correspondencias, pues en este gráfico simultáneo identificaremos las asociaciones entre categorías.