A.3 Distribución \(\Gamma^2\) de Hotelling
A.3.1 Definición y propiedades
La distribución \(\Gamma^2\) de Hotelling juega un papel semejante a la distribución \(t\) de Student en el caso multivariante. En concreto, la distribución \(t\) de Student surge cuando se estandariza la media muestral mediante la varianza muestral. En el caso de poblaciones normales multivariantes, se calcula la distancia de la media muestral a la media teórica usando la distancia de Mahalanobis, que la distancia asociada a la matriz de covarianzas muestral.
Empezamos con la definición de la distribución \(\Gamma^2\) de Hotelling, que, igual que ocurría con la \(t\) de Student, es una definición formal, preparada para adaptarse al problema de inferencia.
Definición A.2 Sean \(\bm{Z}\in N_d(\bm{0},\bm{I_d})\) y \(\bm{R}\in W_d(\bm{I_d},m)\) independientes, con \(m\geq d\). Diremos que la variable aleatoria unidimensional \[m\bm{Z}^{\prime} \bm{R}^{-1} \bm{Z} \in \Gamma^2(d,m)\] tiene una distribución \(\Gamma^2\) de Hotelling de parámetros \(d\) y \(m\).
En el caso particular \(d=1\), resulta \(\Gamma^2(1,m)\stackrel{d}{=}t_{m}^2\), por lo cual decimos que la \(\Gamma^2\) de Hotelling generaliza la distribución \(t\) de Student. Nótese que en la definición anterior, tanto \(\bm{Z}\) como \(\bm{R}\) están estandarizados. Así, \(\bm{Z}\) tiene media cero y como matriz de covarianzas la identidad. \(\bm{R}\) tiene forma estándar, pues su matriz de covarianzas asociada es también la identidad.
En el teorema siguiente vemos cómo se obtiene una distribución \(\Gamma^2\) de Hotelling a partir de variables no estandarizadas. El único requisito es que el vector aleatorio y la matriz aleatoria tengan la misma matriz de covarianzas de referencia.
Teorema A.5 Si \(\bm{x}\in N_d(\bm\mu,\bm\Sigma)\) y \(\bm{M}\in W_d(\bm\Sigma,m)\) son independientes, entonces
\[m \left(\bm{x}-\bm\mu\right)^{\prime} \bm{M}^{-1} \left(\bm{x}-\bm\mu\right) \in \Gamma^2(d,m).\]
Dem. Para demostrar este teorema vamos a estandarizar el vector aleatorio \(\bm{x}\) y la matriz aleatoria \(\bm{M}\). Así, definiendo como \(\bm{Z}\) y \(\bm{R}\) a sus estandarizaciones, se tiene que
\[\begin{aligned} \bm{Z}&=&\bm\Sigma^{-1/2}(\bm{x}-\bm\mu)\in N_d(\bm{0},\bm{I_d}). \\ \bm{R}&=&\bm\Sigma^{-1/2}\bm{M}\bm\Sigma^{-1/2} \in W_d(\bm{I_d},m).\end{aligned}\]
Para la distribución de \(\bm{R}\) se aplicó el Teorema A.1.
El siguiente teorema es muy útil, pues permite convertir una variable con distribución \(\Gamma^2\) de Hotelling en otra con distribución \(F\) de Snédecor. De este modo se evita la necesidad de considerar nuevas tablas de cuantiles, o en general cualquier tipo de cálculos relacionados con la \(\Gamma^2\) de Hotelling. Simplemente se efectuaría la transformación y se apelaría a las tablas y operaciones conocidas para la \(F\) de Snédecor.
Teorema A.6 \[\Gamma^2(d,m)\stackrel{d}{=} \frac{md}{m-d+1} F_{d,m-d+1}\]
Dem. Se omite aquí la demostración de este teorema. Se puede encontrar en Kantilal Varichand Mardia, Kent, and Bibby (1979).
A.3.2 El estadístico \(\Gamma^2\) de Hotelling para inferencia sobre el vector de medias
El siguiente corolario establece que la distancia de la media muestral a la media poblacional, medida a partir de la matriz de covarianzas muestral, tiene distribución de Hotelling. De hecho, este estadístico es la razón principal por la que se ha definido la distribución de Hotelling, hasta el punto de que recibe el nombre de estadístico de Hotelling.
Corolario A.3 Sean \(\bm{x_1},\ldots, \bm{x_n}\in N_d(\bm\mu,\bm\Sigma)\) independientes, y \(\overline{\bm{x}}\) el vector de medias y \(\bm{S}\) la matriz de covarianzas muestrales obtenidos sobre la muestra anterior. Entonces
\[(n-1) \left(\overline{\bm{x}}-\bm\mu\right)^{\prime} \bm{S}^{-1} \left(\overline{\bm{x}}-\bm\mu\right) =n \left(\overline{\bm{x}}-\bm\mu\right)^{\prime} \bm{S_c}^{-1} \left(\overline{\bm{x}}-\bm\mu\right) \in \Gamma^2(d,n-1)\] siendo \(\bm{S_c}=\frac{n}{n-1}\bm{S}\).
Dem. Por el Teorema de Fisher multivariante, se tiene que
\[\overline{\bm{x}}=\frac{1}{n}\sum_{i=1}^n \bm{x_i} \in N_d\left(\bm{\mu},\frac{1}{n}\bm\Sigma\right), \qquad\qquad n\bm{S}=\sum_{i=1}^n \left(\bm{x_i}-\overline{\bm{x}}\right)\left(\bm{x_i}-\overline{\bm{x}}\right)^\prime{} \in W_d\left(\bm\Sigma,n-1\right)\] y además son independientes. Se puede deducir que
\[\sqrt{n}\left(\overline{\bm{x}}-\bm{\mu}\right)\in N_d\left(\bm{\mu},\bm\Sigma\right)\] lo cual sigue siendo independiente de \(n\bm{S}\). Entonces, aplicando el Teorema 5, se llega a que
\[(n-1)\left(\sqrt{n}\left(\overline{\bm{x}}-\bm{\mu}\right)\right)^\prime{}(n\bm{S})^{-1} \sqrt{n}\left(\overline{\bm{x}}-\bm{\mu}\right)\in \Gamma^2(d,n-1).\] Efectuando operaciones se obtiene
\[(n-1)\left(\sqrt{n}\left(\overline{\bm{x}}-\bm{\mu}\right)\right)^\prime{} (n\bm{S})^{-1} \sqrt{n}\left(\overline{\bm{x}}-\bm{\mu}\right)=(n-1) \left(\overline{\bm{x}}-\bm{\mu}\right)^{\prime} \bm{S}^{-1} \left(\overline{\bm{x}}-\bm{\mu}\right)\] con lo cual se concluye la demostración.
Juntando el resultado anterior con el Teorema A.6, se puede transformar el estadístico de Hotelling para que tenga distribución \(F\) de Snédecor, lo cual es más útil a efectos prácticos.
Así, el siguiente corolario contiene el resultado práctico que se suele emplear para obtener regiones de confianza o realizar contrastes de hipótesis sobre el vector de medias.
Corolario A.4 Sean \(\bm{x_1},\ldots, \bm{x_n}\in N_d(\bm{\mu},\bm\Sigma)\) independientes, y \(\overline{\bm{x}}\) el vector de medias y \(\bm{S}\) la matriz de covarianzas muestrales obtenidos sobre la muestra anterior. Entonces
\[\frac{n-d}{d} \left(\overline{\bm{x}}-\bm{\mu}\right)^{\prime} \bm{S}^{-1} \left(\overline{\bm{x}}-\bm{\mu}\right) \in F_{d,n-d}\]
Dem. Es consecuencia directa del Corolario A.4 y el Teorema A.6. Así, se tiene que
\[(n-1) \left(\overline{\bm{x}}-\bm{\mu}\right)^{\prime} \bm{S}^{-1} \left(\overline{\bm{x}}-\bm{\mu}\right)\in \Gamma^2(d,n-1)=\frac{(n-1)d}{n-1-d+1}F_{d,n-1-d+1}.\] Simplificando se llega a la expresión que figura en este corolario.