\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

2.5 Generalización del contraste sobre el vector de medias

En esta sección veremos cómo se puede generalizar el contraste sobre el vector de medias, al caso de restricciones más genéricas sobre \(\bm{\mu}\), más generales que la hipótesis nula, \(H_0:\bm{\mu}=\bm{\mu_0}\). El resultado básico lo enunciamos como un teorema. Después, como aplicación más común de este resultado, veremos el contraste de restricciones lineales sobre \(\bm{\mu}\), entre las cuales tiene un interés especial el contraste de igualdad de las componentes del vector de medias.

2.5.1 Resultado general

Teorema 2.1 Sea \(\bm{x_1},\ldots,\bm{x_n}\) una muestra aleatoria simple de \(N_d(\bm{\mu},\bm\Sigma)\). Si las hipótesis \(H_0\) y \(H_a\) conducen a los estimadores de máxima verosimilitud \(\hat{\bm{\mu}}\) y \(\overline{\bm{x}}\), respectivamente, y bajo ninguna de las dos hipótesis hay restricciones para \(\bm\Sigma\), entonces los estimadores de máxima verosimilitud de \(\bm\Sigma\) son \(\bm{S}+\bm{r}\bm{r}^\prime{}\) y \(\bm{S}\), bajo \(H_0\) y \(H_a\) respectivamente, siendo \(\bm{r}=\overline{\bm{x}}-\hat{\bm{\mu}}\).

Además, el test de razón de verosimilitudes para contrastar \(H_0\) frente a \(H_a\) viene dado por

\[\begin{equation} -2\log\lambda(\bm{x})=n\bm{r}^\prime{}\bm\Sigma^{-1}\bm{r} \qquad \mbox{si}\ \bm\Sigma\ \mbox{es conocida} \tag{2.3} \end{equation}\]

y

\[\begin{equation} -2\log\lambda(\bm{x})=n\log\left(1+\bm{r}^\prime{}\bm{S}^{-1}\bm{r}\right) \qquad \mbox{si}\ \bm\Sigma\ \mbox{es desconocida.} \tag{2.4} \end{equation}\]

Dem. La demostración seguiría los mismos pasos que en los casos anteriores, donde contrastábamos una hipótesis nula simple sobre el vector de medias con matriz de covarianzas conocida o desconocida.

2.5.2 Contraste de restricciones lineales

Supongamos que \(\bm\Sigma\) es conocida y deseamos contrastar la hipótesis nula

\[H_0: \bm{A}\bm{\mu}=\bm{b}\] siendo \(\bm{A}\) una matriz conocida de orden \(q\times d\) y rango máximo \(q\), y \(\bm{b}\) un vector conocido.

A este problema de contraste le podemos aplicar el teorema anterior. Para ello, tenemos que obtener el estimador de máxima verosimilitud bajo \(H_0\), que denotaremos mediante \(\hat{\bm{\mu}}\). La función de log–verosimilitud se puede escribir así:

\[\begin{aligned} l(\bm{x},\bm{\mu},\bm\Sigma)&=\log L(\bm{x},\bm{\mu},\bm\Sigma)\\ &= c-\frac{n}{2} \log |\bm\Sigma| -\frac{1}{2} \sum_{i=1}^n \left(\bm{x_i}-\overline{\bm{x}}\right)^\prime{}\bm\Sigma^{-1}\left(\bm{x_i}-\overline{\bm{x}}\right)\\ &\qquad -\frac{n}{2} \left(\overline{\bm{x}}-\bm{\mu}\right)^\prime{}\bm\Sigma^{-1}\left(\overline{\bm{x}}-\bm{\mu}\right). \end{aligned}\]

En tal caso, el problema consiste en:

\[ \begin{aligned} \textnormal{Maximizar }&\ \ l(\bm{x}, \bm{\mu},\bm\Sigma)\\ \textnormal{sujeto a }&\ \ \bm{A}\bm{\mu}=\bm{b} \end{aligned} \]

Consideramos la función

\[\bm{a}^+=\bm{a}-n\bm{\lambda}^\prime{}(\bm{A}\bm{\mu}-\bm{b})\] siendo \(\bm{\lambda}\) un vector de multiplicadores de Lagrange. Derivando

\[\frac{\partial \bm{a}^+}{\partial \bm{\mu}}=n\left(\overline{\bm{x}}-\bm{\mu}\right)^\prime{}\bm\Sigma^{-1}-n\bm{\lambda}^\prime{}\bm{A}=0.\] De donde

\[\begin{equation} \overline{\bm{x}}-\bm{\mu}=\bm\Sigma \bm{A}^\prime{} \bm{\lambda} \tag{2.5} \end{equation}\]

ecuación que debemos añadir a la restricción \(\bm{A}\bm{\mu}=\bm{b}\), para obtener las soluciones para \(\bm{\lambda}\) y \(\bm{\mu}\). Multiplicando por \(\bm{A}\), \[\bm{A}\overline{\bm{x}}-\bm{A}\bm{\mu}=\bm{A}\overline{\bm{x}}-\bm{b}=\left(\bm{A}\bm\Sigma \bm{A}^\prime{}\right)\bm{\lambda}\] lo cual nos permite despejar \(\bm{\lambda}=\left(\bm{A}\bm\Sigma \bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)\) que, sustituido en la ecuación (2.5), da lugar al estimador de máxima verosimilitud

\[\hat{\bm{\mu}}=\overline{\bm{x}}-\bm\Sigma \bm{A}^\prime{} \left(\bm{A}\bm\Sigma \bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right).\]

El test de razón de verosimilitudes viene dado por (2.3), donde

\[\bm{r}=\overline{\bm{x}}-\hat{\bm{\mu}}=\bm\Sigma \bm{A}^\prime{} \left(\bm{A}\bm\Sigma \bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)\] de modo que finalmente adopta la forma

\[-2\log \lambda(\bm{x})=n\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)^\prime{} \left(\bm{A}\bm\Sigma \bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right).\]

Bajo la hipótesis nula, \(H_0\), \(\bm{A}\bm{x_1},\ldots,\bm{A}\bm{x_n}\in N_q(\bm{b},\bm{A}\bm\Sigma \bm{A}^\prime{})\) y son independientes, siendo \(q\) la dimensión de \(\bm{b}\), y por tanto la distribución del estadístico de contraste es \(\chi_q^2\). En resumen, rechazaremos la hipótesis nula \(H_0: \bm{A}\bm{\mu}=\bm{b}\) si

\[n\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)^\prime{} \left(\bm{A}\bm\Sigma \bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)>\chi_{q,\alpha}^2\] siendo \(\chi_{q,\alpha}^2\) el cuantil \(1-\alpha\) de la distribución \(\chi_q^2\).

Si la matriz de covarianzas es desconocida, los desarrollos que conducen al estimador de máxima verosimilitud de \(\bm{\mu}\) bajo \(H_0\) son algo más complejos. Por ello, omitimos los detalles. El resultado es el siguiente:

\[\hat{\bm{\mu}}=\overline{\bm{x}}- \bm{S} \bm{A}^\prime{} \left(\bm{A}\bm{S}\bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right).\]

El test de razón de verosimilitudes viene dado por (2.4), donde

\[\bm{r}=\overline{\bm{x}}-\hat{\bm{\mu}}=\bm{S}\bm{A}^\prime{} \left(\bm{A}\bm{S}\bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)\] de modo que finalmente tomamos como estadístico de contraste

\[(n-1)\bm{r}^\prime{}\bm{S}^{-1}\bm{r}=(n-1) \left(\bm{A}\overline{\bm{x}}-\bm{b}\right)^\prime{} \left(\bm{A}\bm{S} \bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)\] cuya distribución es \(\Gamma^2(q,n-1)\). Empleando que la distribución \(\Gamma^2\) de Hotelling se puede expresar como una \(F\) de Snédecor, salvo constantes, se llega a

\[\frac{n-q}{q}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)^\prime{} \left(\bm{A}\bm{S}\bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)\in F_{q,n-q}.\]

Por lo tanto, si \(\bm\Sigma\) es desconocida, rechazaremos la hipótesis nula \(H_0: \bm{A}\bm{\mu}=\bm{b}\) si \[\frac{n-q}{q}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)^\prime{} \left(\bm{A}\bm{S}\bm{A}^\prime{}\right)^{-1}\left(\bm{A}\overline{\bm{x}}-\bm{b}\right)> f_{q,n-q, \alpha}\] siendo \(f_{q,n-q,\alpha}\) el cuantil \(1-\alpha\) de la distribución \(F_{q,n-q}\).

2.5.2.1 Caso particular. Contraste de igualdad de las componentes del vector de medias

El contraste de la hipótesis nula de que las \(d\) componentes del vector de medias, \(\bm{\mu}=(\mu_1,\ldots,\mu_d)^\prime{}\), son iguales, se puede ver como un caso particular del contraste de restricciones lineales. Para ello, basta considerar la siguiente matriz

\[\bm{A}=\left(\begin{array}{ccccc} 1 & -1 & 0 & \cdots & 0 \\ 1 & 0 & -1 & \ddots & \vdots \\ \vdots & \vdots & \ddots & \ddots & 0 \\ 1 & 0 & \cdots & 0 & -1 \end{array}\right)\] de modo que \(H_0:\bm{A}\bm{\mu}=\bm{0}\) equivale a la igualdad de las \(d\) medias. Nótese que hay otras matrices que también servirían para efectuar este contraste. En concreto, la matriz \(\bm{A}\) que acabamos de proponer, efectúa las diferencias entre la media de la primera componente y cada una de las demás medias. En este sentido, además de servir para el contraste, permite estimar la discrepancia entre las medias por comparación con la primera de ellas. Si se emplea otro tipo de matriz, se obtendrían las posibles discrepancias entre las medias en una presentación diferente.

Ejemplo. En Kantilal Varichand Mardia, Kent, and Bibby (1979), página 12, se pueden encontrar los datos de depósitos de corcho obtenidos en 28 árboles y extraídos en las cuatro direcciones: Norte, Sur, Este y Oeste. Se está estudiando si la cantidad media de corcho que se llega a recoger, es similar en las cuatro direcciones. Vamos a efectuar el contraste de esta hipótesis usando el test propuesto en esta sección.

> corcho <- read.table("data/corcho.txt", header = TRUE)
> n <- dim(corcho)[1]
> d <- dim(corcho)[2]
> xbar <- colMeans(corcho)
> xbar
       N        E        S        W 
50.53571 46.17857 49.67857 45.17857 
> Sc <- cov(corcho)
> S <- (n - 1)/n * Sc
> S
         N        E        S        W
N 280.0344 215.7615 278.1365 218.1901
E 215.7615 212.0753 220.8788 165.2538
S 278.1365 220.8788 337.5038 250.2717
W 218.1901 165.2538 250.2717 217.9324

Se consideró una matriz \(\bm{A}\) que calcula las diferencias respecto de la dirección norte. A continuación se muestran los valores de esta matriz.

> A <- rbind(c(1, -1, 0, 0), c(1, 0, -1, 0), c(1, 0, 0, -1))
> A
     [,1] [,2] [,3] [,4]
[1,]    1   -1    0    0
[2,]    1    0   -1    0
[3,]    1    0    0   -1

El estadístico \(F\) y su nivel crítico se muestran a continuación. Como el nivel crítico es pequeño se rechaza la igualdad de las cuatro direcciones en cuanto al depósito medio de corcho.

> q <- nrow(A)
> difmed <- A %*% xbar
> covdif <- A %*% S %*% t(A)
> estadF <- ((n - q)/q) * t(difmed) %*% solve(covdif) %*% difmed
> estadF
         [,1]
[1,] 6.401857
> alpha <- 0.05
> qf(1 - alpha, q, n - q)
[1] 2.991241
> pvalor <- 1 - pf(estadF, q, n - q)
> pvalor
            [,1]
[1,] 0.002280399

Como ejercicio adicional, se podría modificar la matriz \(\bm{A}\), por ejemplo de modo que se calculen las diferencias respecto de otra dirección, y efectuar todo el procedimiento del mismo modo con la nueva matriz \(\bm{A}\). El vector difmed y la matriz covdif tomarán valores diferentes. Sin embargo, el estadístico \(F\) (estadF) y su nivel crítico (pvalor) tendrán los mismos valores que hemos mostrado, pues, como hemos dicho, el test no depende de la matriz \(\bm{A}\) escogida, siempre que se mantenga la naturaleza de la hipótesis que se va a contrastar. En este caso, la hipótesis es la igualdad de las cuatro medias, independientemente de cómo se exprese.

References

Mardia, Kantilal Varichand, John T. Kent, and John M. Bibby. 1979. Multivariate Analysis. Probability and Mathematical Statistics. London [u.a.]: Acad. Press.