2.8 Comparación de poblaciones normales multivariantes
Vamos a considerar ahora varias poblaciones normales multivariantes, de las cuales extraemos muestras de manera independiente. En base a estas muestras contrastaremos hipótesis de igualdad o comparación entre los parámetros de las diferentes poblaciones. Sean entonces
\[\begin{aligned} \bm{x_{11}},\ldots,\bm{x_{1n_1}}&\in & N_d(\bm{\mu_1},\bm{\Sigma_1}) \qquad \mbox{independientes},\\ \ldots && \ldots \\ \bm{x_{k1}},\ldots,\bm{x_{kn_k}}&\in & N_d(\bm{\mu_k},\bm{\Sigma_k}) \qquad \mbox{independientes},\end{aligned}\] donde a su vez las \(k\) muestras independientes entre sí. El abanico de posibles problemas de comparación de estas \(k\) poblaciones es muy amplio. En lo que sigue hemos seleccionado algunos casos que nos parecen más interesantes.
2.8.1 Contraste de igualdad de medias de dos poblaciones normales multivariantes con matrices de covarianzas iguales
En primer lugar trataremos el contraste de igualdad de medias de dos poblaciones normales multivariantes, suponiendo que la matrices de covarianzas son desconocidas, pero asumiendo que son iguales. El caso de más de dos muestras será tratado en el capítulo dedicado al análisis multivariante de la varianza (MANOVA). Respecto de cómo realizar el contraste si las dos matrices de covarianzas son distintas, es un problema que ya estaba presente en observaciones univariantes. Se conoce como problema de Behrens-Fisher. La complejidad de este problema así como de sus soluciones, no es esencialmente mayor en el caso multivariante. No nos adentraremos en más detalles en este momento y nos ceñiremos al caso de matrices de covarianzas iguales. Repasemos en primer lugar el contraste de igualdad de medias de dos poblaciones normales univariantes suponiendo que las varianzas son desconocidas pero iguales.
2.8.1.1 Revisión del caso unidimensional \(H_0:\mu_1=\mu_2\) con \(\sigma_1^2=\sigma_2^2\) desconocidas
Disponemos de una muestra formada por \(n_1\) variables independientes y con la misma distribución \(N(\mu_1, \sigma_1^2)\) y una muestra formada por \(n_2\) variables independientes y con la misma distribución \(N(\mu_2, \sigma_2^2)\). Es decir
\[\begin{aligned} {x_{11}},\ldots,{x_{1n_1}}&\in N({\mu_1},\sigma_1^2) \qquad \mbox{independientes},\\ {x_{21}},\ldots,{x_{2n_2}}&\in N({\mu_2},\sigma_2^2) \qquad \mbox{independientes}.\end{aligned}\] Suponemos que las varianzas \(\sigma_1^2\) y \(\sigma_2^2\) son desconocidas pero iguales. Si suponemos que las varianzas de las dos poblaciones son iguales, el mejor estimador de la varianza es:
\[{s}_{P}^2 = \frac{(n_1 - 1) {s}_{c1}^2 + (n_2 - 1) {s}_{c2}^2 }{n_1 + n_2 -2}.\]
En la ecuación anterior, \({s}_{c1}^2\) y \({s}_{c2}^2\) denotan la cuasivarianza muestral de la primera y segunda población, respectivamente. Si la hipótesis nula \(H_0:\mu_1=\mu_2\) es cierta, entonces
\[t=\frac{\overline{x}_1 -\overline{x}_2}{\sqrt{\frac{s_{P}^2}{n_1} +\frac{s_P^2}{n_2} }} \in t_{n_1+n_2-2}.\]
Fijado un nivel de significación \(\alpha\), rechazamos la hipótesis nula \(H_0:\mu_1=\mu_2\) frente a \(H_1:\mu_1\neq\mu_2\) si \(\left|t\right|\geq t_{\alpha/2}\) siendo \(t_{\alpha/2}\) el cuantil \(1-\alpha/2\) de la distribución \(t\) de Student con \(n_1+n_2-2\) grados de libertad. Equivalentemente
\[\begin{equation} t^2=\frac{n_1n_2}{n_1+n_2}(\overline{x}_1 -\overline{x}_2)\frac{1}{s_{P}^2}(\overline{x}_1 -\overline{x}_2). \tag{2.6} \end{equation}\]
2.8.1.2 Caso multidimensional \(H_0:\bm{\mu_1}=\bm{\mu_2}\) con \(\bm{\Sigma_1}=\bm{\Sigma_2}\) desconocidas
En el caso multivariante disponemos de \[\begin{aligned} \bm{x_{11}},\ldots,\bm{x_{1n_1}}&\in & N_d(\bm{\mu_1},\bm{\Sigma_1}) \qquad \mbox{independientes}\\ \bm{x_{21}},\ldots,\bm{x_{2n_2}}&\in & N_d(\bm{\mu_2},\bm{\Sigma_2}) \qquad \mbox{independientes}\end{aligned}\] siendo a su vez las dos muestras independientes entre sí. Además supondremos que las dos matrices de covarianzas son iguales, \(\bm{\Sigma_1}=\bm{\Sigma_2}\). En estas condiciones pretendemos contrastar la hipótesis nula
\[H_0:\bm{\mu_1}=\bm{\mu_2}\]
Parece razonable basar el procedimiento de contraste en una medida de discrepancia o distancia entre estimadores de \(\bm{\mu_1}\) y de \(\bm{\bm{\mu_2}}\). De cada una de las dos poblaciones se pueden obtener estimadores de los parámetros correspondientes a cada población,
\[\bm{\overline{x}_1}=\frac{1}{n_1}\sum_{j=1}^{n_1} \bm{x_{1j}} \qquad \bm{S_{c1}}=\frac{1}{n_1-1} \sum_{j=1}^{n_1} \left(\bm{x_{1j}}-\bm{\overline{x}_1}\right)\left(\bm{x_{1j}}-\bm{\overline{x}_1}\right)^\prime{}\]
\[\bm{\overline{x}_2}=\frac{1}{n_2}\sum_{j=1}^{n_2} \bm{x_{2j}} \qquad \bm{S_{c2}}=\frac{1}{n_2-1} \sum_{j=1}^{n_2} \left(\bm{x_{2j}}-\bm{\overline{x}_2}\right)\left(\bm{x_{2j}}-\bm{\overline{x}_2}\right)^\prime{}\]
Por ser las dos muestras independientes entre sí, también lo son los estadísticos procedentes de cada una de ellas. Además, la extensión del teorema de Fisher al caso multivariante garantiza que
\[\bm{\overline{x}_1}\in N_d\left(\bm{\mu_1},\bm\Sigma/n_1\right), \ \left(n_1-1\right)\bm{S_{c1}} \in \mbox{Wishart}_d\left(\bm\Sigma,n_1-1\right) \ \mbox{y son independientes}\]
\[\bm{\overline{x}_2}\in N_d\left(\bm{\mu_2},\bm\Sigma/n_2\right),\ \left(n_2-1\right)\bm{S_{c2}} \in \mbox{Wishart}_d\left(\bm\Sigma,n_2-1\right)\ \mbox{y son independientes}.\]
Además, como las dos muestras son independientes entre sí, también lo son los estadísticos obtenidos en base a cada una de ellas. Por tanto,
\[\bm{\overline{x}_1}-\bm{\overline{x}_2} \in N_d\left(\bm{\mu_1}-\bm{\mu_2},\left(\frac{1}{n_1}+\frac{1}{n_2}\right)\bm\Sigma\right),\]
\[\left(n_1-1\right)\bm{S_{c1}}+\left(n_2-1\right)\bm{S_{c2}} \in \mbox{Wishart}_d\left(\bm\Sigma,n_1+n_2-2\right)\] y además son independientes. Denotemos mediante
\[\bm{S_{P}}=\frac{\left(n_1-1\right)\bm{S_{c1}}+\left(n_2-1\right)\bm{S_{c2}}}{n_1+n_2-2}\] una media ponderada de \(\bm{S_{c1}}\) y \(\bm{S_{c2}}\), que sirve como estimador de la matriz de covarianzas común \(\bm\Sigma\).
Entonces, bajo la hipótesis nula \(H_0:\bm{\mu_1}=\bm{\mu_2}\),
\[T^2=\frac{n_1n_2}{n_1+n_2} \left(\bm{\overline{x}_1}-\bm{\overline{x}_2}\right)^\prime{}\bm {S_P}^{-1}\left(\bm{\overline{x}_1}-\bm{\overline{x}_2}\right) \in \Gamma^2\left(d,n_1+n_2-2\right)\] lo cual lo convierte en un estadístico adecuado para el contraste de dicha hipótesis. Además, el estadístico \(T^2\) se puede transformar fácilmente a una \(F\) de Snédecor utilizando que
\[\frac{n_1+n_2-d-1}{(n_1+n_2-2)d}T^2=F_{d,n_1+n_2-d-1}\]
Ejemplo. Se ha medido la longitud, la anchura y la altura del caparazón de 48 tortugas, 24 hembras y 24 machos. Los vectores de medias y matrices de covarianzas respectivos son:
\[\bm{\overline{x}_1}=\left(\begin{array}{c} 136.00 \\ 102.58 \\ 51.96 \end{array}\right) \qquad\qquad \bm{S_1}=\left(\begin{array}{ccc} 432.58 & 259.87 & 161.67 \\ & 164.57 & 98.99 \\ && 63.87 \end{array}\right)\]
\[\bm{\overline{x}_2}=\left(\begin{array}{c} 113.38 \\ 88.29 \\ 40.71 \end{array}\right) \qquad\qquad \bm{S_2}=\left(\begin{array}{ccc} 132.99 & 75.85 & 35.82 \\ & 47.96 & 20.75 \\ && 10.79 \end{array}\right)\]
Vamos a contrastar que los vectores de medias son iguales en ambos sexos, suponiendo que en cada sexo las observaciones son normales y que presentan la misma matriz de covarianzas. En primer lugar introducimos los datos en R:
> n1 <- 24
> n2 <- 24
> d <- 3
> bx1 <- c(136, 102.58, 51.96)
> bx2 <- c(113.38, 88.29, 40.71)
> S1 <- matrix(c(432.58, 259.87, 161.67, 259.87, 164.57, 98.99, 161.67, 98.99, 63.87),
+ nrow = 3, ncol = 3)
> S2 <- matrix(c(132.99, 75.85, 35.82, 75.85, 47.96, 20.75, 35.82, 20.75, 10.79), nrow = 3,
+ ncol = 3)
Calculamos ahora el estimador de la matriz de covarianzas común \(\bm{S_P}\).
Por último calculamos el valor del estadístico y su transformación a una \(F\) de Snédecor:
> estad <- n1 * n2/(n1 + n2) * t(bx1 - bx2) %*% solve(Sp) %*% (bx1 - bx2)
> estad
[,1]
[1,] 66.85048
El nivel crítico obtenido es muy pequeño, 1.1199977^{-8}, por lo que se rechaza la igualdad de vectores de medias. Realmente ya podíamos observar que las medias muestrales eran diferentes, y que las varianzas no parecían suficientes para ocultar esas diferencias, pero aún así es conveniente efectuar un contraste como éste, que aporta un criterio objetivo.
2.8.2 Contraste de igualdad de matrices de covarianzas de normales multivariantes
Recordemos el modelo inicial de esta sección
\[\begin{aligned} \bm{x_{11}},\ldots,\bm{x_{1n_1}}&\in N_d(\bm{\mu_1},\bm{\Sigma_1}) \qquad \mbox{independientes}\\ \ldots & \ldots \\ \bm{x_{k1}},\ldots,\bm{x_{kn_k}}&\in N_d(\bm{\mu_k},\bm{\Sigma_k}) \qquad \mbox{independientes}\end{aligned}\] siendo a su vez las \(k\) muestras independientes entre sí. Nos planteamos el contraste de la hipótesis nula \(H_0:\bm{\Sigma_1}=\cdots=\bm{\Sigma_k}\). Los vectores de medias están exentos de restricciones tanto bajo la hipótesis nula como bajo la alternativa.
Vamos a obtener el test de razón de verosimilitudes. Lo primero que observamos es que, como las muestras son independientes entre sí, la función de verosimilitud se puede expresar como producto de las funciones de verosimilitud de cada una de las \(k\) poblaciones. Bajo la alternativa,
\[\begin{aligned} \sup_{\bm{\mu_1},\bm\Sigma_1,\ldots,\bm{\mu_k},\bm {\Sigma_k}} \log \prod_{i=1}^k L\left(\bm{\mu_i},\bm{\Sigma_i}\right) &=\sum_{i=1}^k \sup_{\bm{\mu_i},\bm {\Sigma_i}} \log L\left(\bm{\mu_i},\bm {\Sigma_i}\right)\\ &=\sum_{i=1}^k \log L\left(\bm{\overline{x}_i},\bm{S_i}\right) \\ &=\sum_{i=1}^k \left[-\frac{n_id}{2}\log (2\pi) -\frac{1}{2} n_i\log \left|\bm{S_i}\right|-\frac{n_id}{2}\right]\\ &=-\frac{nd}{2}\log (2\pi) -\frac{1}{2}\sum_{i=1}^k n_i\log \left|\bm{S_i}\right|-\frac{nd}{2}\end{aligned}\]
Bajo la hipótesis nula, denotemos \(\bm\Sigma=\bm{\Sigma_1}=\cdots=\bm {\Sigma_k}\) a la matriz de covarianzas común,
\[\begin{aligned} \sup_{\bm{\mu_1},\ldots,\bm{\mu_k},\bm\Sigma} \log \prod_{i=1}^k L\left(\bm{\mu_i},\bm\Sigma\right) &=\sup_{\bm\Sigma}\sum_{i=1}^k \sup_{\bm{\mu_i}} \log L\left(\bm{\mu_i},\bm\Sigma\right)\\ &=\sup_{\bm\Sigma}\sum_{i=1}^k \log L\left(\bm{\overline{x}_i},\bm\Sigma\right) \\ &=\sup_{\bm\Sigma}\sum_{i=1}^k \left[-\frac{n_id}{2}\log (2\pi) -\frac{n_i}{2} \left(\log |\bm\Sigma|+\mbox{traza}\left(\bm\Sigma^{-1}\bm{S_i}\right)\right)\right] \\ &=\sup_{\bm\Sigma}\left[-\frac{nd}{2}\log (2\pi) -\frac{n}{2} \left(\log |\bm\Sigma|+\mbox{traza}\left(\bm\Sigma^{-1}\frac{\bm{Q}}{n}\right)\right)\right]\\ &=-\frac{nd}{2}\log (2\pi) -\frac{n}{2} \log \left|\frac{\bm{Q}}{n}\right|-\frac{nd}{2}\end{aligned}\] siendo \(\bm{Q}=\sum_{i=1}^k n_i\bm{S_i}\). Nótese que \(\bm{Q}/n\) es el estimador de máxima verosimilitud de la matriz de covarianzas común, \(\bm\Sigma\), y resulta ser una media ponderada de las matrices de covarianzas muestrales provenientes de cada población.
Finalmente, el estadístico de razón de verosimilitudes adopta la forma:
\[\begin{aligned} -2\log \frac{\sup_{\bm{\mu_1},\ldots,\bm{\mu_k},\bm\Sigma} \prod_{i=1}^k L\left(\bm{\mu_i},\bm\Sigma\right)} {\sup_{\bm{\mu_1},\bm{\Sigma_1},\ldots,\bm{\mu_k},\bm {\Sigma_k}} \prod_{i=1}^k L\left(\bm{\mu_i},\bm {\Sigma_i}\right)} &= n\log \left|\frac{\bm{Q}}{n}\right|-\sum_{i=1}^k n_i\log \left|\bm{S_i}\right| \\ &= \sum_{i=1}^k n_i\log \left|\frac{\bm{Q}}{n}\bm{S_i}^{-1}\right| \sim \chi_{\frac{1}{2}d(d+1)(k-1)}^2\end{aligned}\] cuya distribución hemos aproximado por una ji-cuadrado cuyos grados de libertad resultan de la diferencia de parámetros independientes entre la hipótesis nula y la alternativa.
Ejemplo. Para el ejemplo anterior de las tortugas, vamos a contrastar que las matrices de covarianzas son iguales en ambos sexos, suponiendo que en cada sexo las observaciones son normales.
Calculamos el estimador de la matriz de covarianzas común bajo \(H_0\)
Calculamos ahora el valor del estadístico y el \(p\)-valor correspondiente.
> k <- 2
> gl <- 0.5 * d * (d + 1) * (k - 1)
> pval <- 1 - pchisq(estad, gl)
> pval
[1] 0.0001456775
El nivel crítico obtenido es bastante pequeño, 1.4567753^{-4}, por lo que se rechaza la igualdad de matrices de covarianzas. A la vista de este resultado, y como en el ejemplo anterior se supuso igualdad de matrices de covarianzas para el contraste de igualdad de los vectores de medias, tendría sentido reconsiderar el procedimiento aplicado en aquella ocasión. Para ello, en lugar de emplear la estimación de una matriz de covarianzas común, habría que considerar las dos matrices de manera más separada. No entraremos en más detalle en este momento.