2.6 Inferencia sobre la matriz de covarianzas
Consideramos ahora contrastes de hipótesis que involucran la estructura de covarianzas de una población normal. En general, este tipo de contrastes se llevan a cabo para comprobar hipótesis de otros modelos. Los procedimientos que estudiaremos nos permitirán contrastar por ejemplo si la matriz de covarianzas tiene una estructura determinada o si algunos elementos de la matriz de covarianzas son cero (implicando así la independencia de los subvectores correspondientes).
2.6.1 Contraste \(H_0: \bm\Sigma=\bm{\Sigma_0}\)
Disponemos de una muestra aleatoria simple \(\bm{x_1},\ldots,\bm{x_n}\in N_d(\bm{\mu},\bm\Sigma)\) de vectores aleatorios independientes y con la misma distribución normal multivariante. Suponemos que el vector de medias \(\bm{\mu}\) es desconocido. Deseamos llevar a cabo tareas de inferencia relativas a la matriz de covarianzas. En particular, deseamos contrastar
\[H_0: \bm\Sigma=\bm{\Sigma_0} \textnormal{ frente a } H_1: \bm\Sigma\neq\bm{\Sigma_0}.\]
En este contraste la matriz de covarianzas en la hipótesis alternativa no está sujeta a restricciones. Aplicando el procedimiento de razón de verosimilitudes, resulta el estadístico de contraste:
\[-2\log \lambda(\bm{x}) =-2\log \frac{\sup_{\bm{\mu}} L\left(\bm{x}, \bm{\mu},\bm{\Sigma_0}\right)} {\sup_{\bm{\mu},\bm\Sigma} L\left(\bm{x}, \bm{\mu},\bm\Sigma\right)}.\]
Recordamos que la función de verosimilitud alcanza su máximo en \(\bm{\mu}=\overline{\bm{x}}\) para cualquier matriz de covarianzas \(\bm\Sigma\). Se tiene por lo tanto,
\[\sup_{\bm{\mu}} \log L\left(\bm{x}, \bm{\mu},\bm{\Sigma_0}\right) = c - \frac{n}{2} \left( \log|\bm{\Sigma_0}| + \mbox{traza}\left(\bm{\Sigma_0}^{-1}\bm{S}\right) \right).\]
También habíamos visto que,
\[\sup_{\bm\Sigma}\sup_{\bm{\mu}}\log L(\bm{x}, \bm{\mu},\bm\Sigma) = c - \frac{n}{2} \left( \log |\bm{S}| + d\right)\] de modo que el estadístico de contraste adopta la forma:
\[\begin{aligned} -2\log \lambda(\bm{x}) &= n\left(\log \left|\bm{\Sigma_0}\right| + \mbox{traza}\left(\bm{\Sigma_0}^{-1}\bm{S}\right) - \log |\bm{S}| - d \right)\\ &= n\left( \mbox{traza}\left(\bm{\Sigma_0}^{-1}\bm{S}\right) - \log\left|\bm{\Sigma_0}^{-1}\bm{S}\right| - d \right) \\ &= n\left(\sum_{j=1}^d \lambda_j - \log\left(\prod_{j=1}^d \lambda_j\right) - d\right)\\ &= n\left(da-\log\left(g^d\right)-d\right) \\ &= nd \left(a-\log g -1\right)\end{aligned}\] siendo \(\lambda_1,\ldots,\lambda_d\) los autovalores de la matriz \(\bm{\Sigma_0}^{-1}\bm{S}\), \(a\) la media aritmética de tales autovalores y \(g\) su media geométrica. La distribución exacta de este estadístico bajo la hipótesis nula no se encuentra disponible. En su lugar, usaremos la distribución asintótica que presenta por ser un estadístico de razón de verosimilitudes:
\[-2\log \lambda(\bm{x}) = nd \left(a-\log g -1\right)\sim \chi_m^2\] siendo el número de grados de libertad, la diferencia entre el número de parámetros independientes bajo la hipótesis alternativa y bajo la hipótesis nula, que en este caso resulta, \(m=\frac{1}{2}d(d+1)\), pues es el número de parámetros independientes en una matriz de covarianzas.
Por haberse construido como cociente de verosimilitudes bajo la hipótesis nula y bajo la alternativa, rechazaremos la hipótesis nula cuando este estadístico sea grande o, mejor dicho, cuando supere el cuantil \((1-\alpha)\) de la distribución \(\chi_m^2\), denotado por \(\chi_{m,\alpha}^2\), siendo \(\alpha\) el nivel de significación fijado de antemano.
Ejemplo. Recordemos el ejemplo sobre Psicología educativa en el que se analizaba si las notas medias obtenidas por estudiantes universitarios en dos tests de inteligencia fueron iguales a 100. Cuando planteamos por primera vez el contraste sobre el vector de medias, suponíamos que la matriz de covarianzas era conocida e igual a
\[\bm{\Sigma}=\left(\begin{array}{cc} 49 & 35 \\ 35 & 52 \end{array}\right).\]
Utilizando los datos del fichero notas.txt
vamos a contrastar si esa
es efectivamente la estructura de la matriz de covarianzas del vector
\(\bm{x}=(x_1,x_2)^\prime{}\) correspondiente a las notas de los dos
tests. En primer lugar leemos los datos, calculamos la matriz de
covarianzas muestral \(S\) y definimos la matriz de covarianzas bajo la
hipótesis nula \(\bm{\Sigma_0}\).
> tests <- read.table("data/notas.txt", header = TRUE)
> n <- dim(tests)[1]
> d <- dim(tests)[2]
> S <- (n - 1)/n * cov(tests)
> Sigma_0 <- matrix(c(49, 35, 35, 52), nrow = 2)
Calculamos ahora los autovalores de la matriz \(\bm{\Sigma_0}^{-1}\bm{S}\). El estadístico de contraste se define a partir de la media aritmética \(a\) y la media geométrica \(g\) de los autovalores.
> lambda <- eigen(solve(Sigma_0) %*% S)$values
> a <- mean(lambda)
> g <- prod(lambda)^(1/d)
> estad <- n * d * (a - log(g) - 1)
> estad
[1] 10.47213
Bajo \(H_0\), la distribución asintótica del estadístico es \(\chi_m^2\), siendo \(m=d(d+1)/2\).
Para un nivel de significación inferior al del nivel crítico (\(0.0149\)) podremos aceptar que la matriz de covarianzas sea la que se planteó como hipótesis.
Nota. Debemos observar que si se hubiera supuesto que el vector de medias es conocido, siguiendo los mismos pasos habríamos llegado al estadístico de contraste
\[-2\log \lambda(\bm{x}) = nd \left(a-\log g -1\right)\] siendo \(a\) y \(g\) las medias aritmética y geométrica, respectivamente, de los autovalores de la matriz \(\bm{\Sigma_0}^{-1}\hat{\bm\Sigma}_{\bm{\mu}}\). La única diferencia radica en la sustitución de \(\bm{S}\) por el estimador
\[\hat{\bm\Sigma}_{\bm{\mu}}=\frac{1}{n}\sum_{i=1}^n \left(\bm{x_i}-\bm{\mu}\right)\left(\bm{x_i}-\bm{\mu}\right)^\prime{}.\]
Nuevamente tenemos los mismos problemas con la distribución del estadístico de contraste y apelamos a la distribución asintótica, que es \(\chi_m^2\) con el mismo número de grados de libertad, \(m=\frac{1}{2}d(d+1)\).