A.2 Distribución de Wishart
A.2.1 Definición y propiedades
La distribución de Wishart surge como una extensión al caso multivariante de la distribución ji-cuadrado. Recuerda que si \(x_1,\ldots, x_m\) son variables aleatorias independientes con distribución \(N(0,1)\), entonces la variable \(\sum_{i=1}^m{{x_i}^2}\) tiene distribución ji-cuadrado con \(m\) grados de libertad.
Cuando \(\bm{x_1},\ldots, \bm{x_m}\) son vectores aleatorios en lugar de variables aleatorias, por ejemplo \(\bm{x_i}\in\mathbb{R}^d\) con \(\bm{x_i}\in N_d(\bm{0},\bm{I_d})\), una posible forma de generalizar la suma de cuadrados anterior sería construir la matriz \(d\times d\) semidefinida positiva \(\bm{M}=\sum_{i=1}^m\bm{x_i}\bm{x_i}^{\prime}\). Mientras la distribución ji-cuadrado se atribuye a estimadores de la varianza, como la varianza muestral, la distribución de Wishart corresponde a matrices de covarianza muestrales.
La representación de \(\bm{M}\) da lugar, en esencia, a la definición de la distribución de Wishart. Como se trata de una matriz aleatoria, no nos vamos a preocupar por una supuesta función de densidad para la distribución de Wishart, ni vamos a considerar tablas de cuantiles. Simplemente vamos a estudiar las propiedades que presenta una matriz de covarianzas aleatoria, que serán de utilidad más adelante para las regiones de confianza multivariantes.
Definición A.1 Sean \(\bm{x_1},\ldots,\bm{x_m}\in N_d(\bm{0},\bm\Sigma)\) independientes. Diremos que la matriz aleatoria
\[\bm{M}=\sum_{i=1}^m \bm{x_i} \bm{x_i}^{\prime}\] tiene una distribución Wishart con matriz \(\bm\Sigma\) y \(m\) grados de libertad. Denotamos \(\bm{M}\in W_d(\bm\Sigma,m)\).
Observaciones
Si construimos la matriz de observaciones
\[\bm{X}=\left(\begin{array}{c} \bm{x_1}^{\prime} \\ \vdots \\ \bm{x_m}^{\prime} \end{array}\right) =\left(\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1d}\\ x_{21} & x_{22} & \cdots & x_{2d}\\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md}\end{array}\right)\] de orden \(m\times d\), entonces podemos escribir
\[\bm{M}=\sum_{i=1}^m \bm{x_i} \bm{x_i}^{\prime}=\left(\bm{x_1},\ldots,\bm{x_m}\right) \left(\begin{array}{c} \bm{x_1}^{\prime} \\ \vdots \\ \bm{x_m}^{\prime} \end{array}\right) =\bm{X}^{\prime}\bm{X}=\left(\sum_{i=1}^m x_{ij} x_{ik}\right)_{j,k\in\{1,\ldots,d\}}.\]
Si \(\bm\Sigma=\bm{I_d}\) diremos que la distribución tiene forma estándar.
Si \(d=1\), entonces \(\bm\Sigma=\sigma^2\) y la distribución de Wishart es una ji-cuadrado con \(m\) grados de libertad y parámetro de escala \(\sigma^2\). Es decir, \(x_1,\ldots,x_m\in N(0,\sigma^2)\) independientes y
\[\bm{M}=\sum_{i=1}^m x_i x_i^{\prime}=\sum_{i=1}^m x_i^2 =\sigma^2 \sum_{i=1}^m \left(\frac{x_i}{\sigma}\right)^2 \in \sigma^2 \chi_m^2.\]
Teorema A.1 Si \(\bm{M}\in W_d(\bm\Sigma,m)\) y \(\bm{A}\) es una matriz \(q\times d\) de rango \(q\) (\(q\leq d\)), entonces
\[\bm{A}\bm{M}\bm{A}^{\prime}\in W_q\left(\bm{A}\bm\Sigma \bm{A}^{\prime},m\right).\]
Dem. Si \(\bm{M}\in W_d(\bm\Sigma,m)\), entonces lo podemos expresar así
\[\bm{M}=\sum_{i=1}^m\bm{x_i}\bm{x_i}^{\prime}\] siendo \(\bm{x_1},\ldots,\bm{x_m}\in N_d(\bm{0},\bm\Sigma)\) independientes. En tal caso, resulta que
\[\bm{A}\bm{M}\bm{A}^{\prime}=\sum_{i=1}^m \bm{A}\bm{x_i} \bm{x_i}^{\prime}\bm{A}^{\prime} =\sum_{i=1}^m \left(\bm{A}\bm{x_i}\right) \left(\bm{A}\bm{x_i}\right)^{\prime}\] y además \(\bm{A}\bm{x_1},\ldots,\bm{A}\bm{x_m}\in N_q(\bm{0},\bm{A}\bm\Sigma \bm{A}^{\prime})\) independientes. Entonces, atendiendo a la definición de la distribución de Wishart, se tiene que \(\bm{A}\bm{M}\bm{A}^{\prime}\in W_q\left(\bm{A}\bm\Sigma \bm{A}^{\prime},m\right)\).
Corolario A.1 Si \(\bm{M}\in W_d(\bm\Sigma,m)\), entonces las submatrices diagonales de \(\bm{M}\) también tienen distribuciones de Wishart, con parámetros la submatriz correspondiente y \(m\) grados de libertad.
Corolario A.2 Si \(\bm{M}\in W_d(\bm\Sigma,m)\) y \(\bm{a}\) es un vector \(d\)-dimensional tal que \(\bm{a}^\prime{}\bm\Sigma \bm{a}>0\), entonces
\[\bm{a}^\prime{}\bm{M}\bm{a}\in \left(\bm{a}^\prime{}\bm\Sigma \bm{a}\right)\chi_m^2.\]
En particular, por el Corolario A.2 se tiene que dado \(\bm{e_j}=(0,\ldots,0,1,0,\ldots,0)^\prime{}\),
\[\bm{e_j}^\prime{}\bm{M}\bm{e_j}\equiv m_{jj}\in \sigma_{jj}^2\chi_m^2.\] Es decir, la distribución marginal de \(m_{jj}\) es ji-cuadrado para \(j=1,\ldots,d\). Sin embargo, la distribución marginal de \(m_{jk}\) (\(j\neq k\)) no es ji-cuadrado.
Otra consecuencia del Teorema A.1 es que, fijado \(d\) y \(m\), la familia de distribuciones \(W_d(\bm\Sigma,m)\) con \(\bm\Sigma\) semidefinida positiva puede ser generada a partir de la distribución \(W_d(\bm{I_d},m)\) y de matrices \(d\times d\). Observa que si \(\bm{M}\in W_d(\bm{I_d},m)\) y \(\bm\Sigma=\bm{A}\bm{A}^\prime{}\), entonces
\[\bm{A}\bm{M}\bm{A}^{\prime}\in W_d\left(\bm{A}\bm{I_d}\bm{A}^{\prime},m\right)=W_d\left(\bm\Sigma,m\right).\]
Veremos a continuación algunas propiedades de la distribución Wishart.
Propiedades
Si \(\bm{M}\in W_d(\bm\Sigma,m)\), entonces \(E(\bm{M})=m\cdot\bm\Sigma\).
\(\bm{M}=\bm{x_1}\bm{x_1}^\prime{}+\cdots+\bm{x_m}\bm{x_m}^\prime{}\) es una matriz simétrica, semidefinida positiva y de rango la dimensión del espacio lineal generado por \(\bm{x_1},\ldots,\bm{x_m}\). Si \(\bm{x_1},\ldots,\bm{x_m}\) son vectores aleatorios independientes, con la misma distribución y su matriz de covarianzas tiene rango \(k\), entonces
\[P(\mbox{rango}(\bm{M})=\min\{m,k\})=1.\]
Como consecuencia de la propiedad anterior, si \(\bm{M}\in W_d(\bm\Sigma,m)\), \(\bm\Sigma\) es definida positiva y \(m\geq d\), entonces \[P(\bm{M}\ \mbox{sea definida positiva})=1.\]
La familia de distribuciones \(W_d(\bm\Sigma,m)\) es reproductiva respecto del parámetro \(m\), esto es, si \(\bm{M_1}\in W_d(\bm\Sigma,m_1)\), \(\bm{M_2}\in W_d(\bm\Sigma,m_2)\) y además son independientes, entonces
\[\bm{M_1}+\bm{M_2}\in W_d(\bm\Sigma,m_1+m_2).\]
A.2.2 Formas cuadráticas en una muestra de observaciones normales multivariantes
En esta sección veremos las extensiones al caso multivariante de los resultados sobre la distribución de formas cuadráticas de variables normales. Estos resultados, al igual que en el caso unidimensional, serán útiles para las tareas de inferencia en base a una muestra de una distribución normal o en problemas de regresión.
Teorema A.2 Sean \(\bm{x_1},\ldots,\bm{x_m}\in N_d(\bm{0},\bm\Sigma)\) independientes y la matriz de observaciones
\[\bm{X}=\left(\begin{array}{c} \bm{x_1}^\prime{} \\ \vdots \\ \bm{x_m}^\prime{}\end{array}\right) =\left(\begin{array}{ccc} x_{11} & \cdots & x_{1d} \\ \cdots & \cdots & \cdots \\ x_{m1} & \cdots & x_{md} \end{array}\right).\]
Entonces:
Si \(\bm{a}\) es un vector de dimensión \(m\) no nulo, entonces \[\bm{X}^\prime{}\bm{a}\in N_d\left(\bm{0},\|\bm{a}\|^2\bm\Sigma\right).\]
Si \(\bm{a}\) y \(\bm{b}\) son dos vectores no nulos y ortogonales, \(\bm{a}^\prime{}\bm{b}=0\), entonces \(\bm{X}^\prime{}\bm{a}\) y \(\bm{X}^\prime{}\bm{b}\) son independientes.
Dem. Probamos a continuación cada uno de los puntos del enunciado.
\(i.\) Observamos que
\[\bm{X}^\prime{}\bm{a}=\left(\bm{x_1},\ldots,\bm{x_m}\right)\bm{a}=\sum_{i=1}^m \bm{x_i} a_i.\]
Entonces, como \(\bm{x_1},\ldots,\bm{x_m}\in N_d(\bm{0},\bm\Sigma)\) independientes y
\[\mbox{Cov}\left(\bm{X}^\prime{}\bm{a},\bm{X}^\prime{}\bm{a}\right)=\mbox{Cov}\left(\sum_{i=1}^m \bm{x_i} a_i,\sum_{i=1}^m \bm{x_i} a_i\right)=\sum_{i=1}^m\sum_{j=1}^m a_i a_j \mbox{Cov}\left(\bm{x_i},\bm{x_j}\right) \stackrel{(a)}{=}\sum_{i=1}^m a_i^2 \bm\Sigma =\|\bm{a}\|^2\Sigma,\] se concluye que \(\bm{X}^\prime{}\bm{a}\) tiene distribución normal de media cero y con la matriz de covarianzas que se acaba de obtener. La igualdad (a) es consecuencia de que los vectores \(\bm{x_1},\ldots,\bm{x_m}\) son independientes y la matriz de covarianzas de cada uno de ellos es \(\bm\Sigma\).
\(ii.\) De manera muy similar al apartado anterior, se tiene que
\[\begin{aligned} \mbox{Cov}\left(\bm{X}^\prime{}\bm{a},\bm{X}^\prime{}\bm{b}\right)&=\mbox{Cov}\left(\sum_{i=1}^m \bm{x_i} a_i,\sum_{i=1}^m \bm{x_i} b_i\right)\\ &=\sum_{i=1}^m\sum_{j=1}^m a_i b_j \mbox{Cov}\left(\bm{x_i},\bm{x_j}\right)\\ &=\sum_{i=1}^m a_ib_i \bm\Sigma\\ &=\left(\bm{a}^\prime{}\bm{b}\right)\bm\Sigma\\ &=\bm{0}. \end{aligned}\]
De modo que \(\bm{X}^\prime{}\bm{a}\) y \(\bm{X}^\prime{}\bm{b}\) están incorrelacionados. Como por el apartado anterior, tienen distribución normal, entonces son independientes.
Teorema A.3 Sean \(\bm{x_1},\ldots,\bm{x_m}\in N_d(\bm{0},\bm\Sigma)\) independientes y \(\bm{X}\) la correspondiente matriz de observaciones.
Si \(\bm{A}\) es una matriz simétrica de orden \(m\times m\), idempotente (\(\bm{A}^2=\bm{A}\)) y de rango \(r\leq m\), entonces
\[\bm{X}^\prime{}\bm{A}\bm{X}\in W_d(\bm\Sigma,r).\]
Si \(\bm{A}\) es una matriz en las condiciones anteriores y \(\bm{b}\) es un vector de dimensión \(m\), tal que \(\bm{A}\bm{b}=\bm{0}\), entonces
\[\bm{X}^\prime{}\bm{A}\bm{X}\ \ \mbox{y}\ \ \bm{X}^\prime{}\bm{b}\ \ \mbox{son independientes}.\]
Si \(\bm{A}\) y \(\bm{B}\) son dos matrices en las condiciones anteriores y \(\bm{A}\bm{B}=\bm{0}\), entonces
\[\bm{X}^\prime{}\bm{A}\bm{X}\ \ \mbox{y}\ \ \bm{X}^\prime{}\bm{B}\bm{X}\ \ \mbox{son independientes}.\]
Dem. \(i.\) Por ser \(\bm{A}\) simétrica, idempotente y de rango \(r\leq m\), tendrá \(r\) autovalores iguales a uno y \((m-r)\) autovalores iguales a cero. En tal caso, se podrá expresar
\[\bm{A}=\sum_{i=1}^r \bm{v_i}\bm{v_i}^\prime{},\] siendo \(\bm{v_1},\ldots,\bm{v_r}\) los autovectores asociados a los autovalores unitarios. Entonces
\[\begin{equation} \bm{X}^\prime{}\bm{A}\bm{X}=\sum_{i=1}^r \bm{X}^\prime{}\bm{v_i}\bm{v_i}^\prime{}\bm{X}=\sum_{i=1}^r \left(\bm{X}^\prime{}\bm{v_i}\right)\left(\bm{X}^\prime{}\bm{v_i}\right)^{\prime}. \tag{A.1} \end{equation}\]
El apartado (i) del Teorema A.2 nos lleva a que \(\bm{X}^\prime{}\bm{v_1},\ldots,\bm{X}^\prime{}\bm{v_r}\in N_d(\bm{0},\bm\Sigma)\) y el apartado (ii) del mismo teorema a que son independientes. En consecuencia, de la expresión(A.1) y la definición de la distribución de Wishart, se deduce que
\[\bm{X}^\prime{}\bm{A}\bm{X}\in W_d(\bm\Sigma,r).\]
\(ii.\) La hipótesis \(\bm{A}\bm{b}=\bm{0}\) implica que \(\bm{v_j}^\prime{}\bm{b}=0\) para todo \(j\in\{1,\ldots,r\}\). El apartado (ii) del Teorema A.2 conduce a que \(\bm{X}^\prime\bm{v_1},\ldots,\bm{X}^\prime\bm{v_r}\) sean independientes de \(\bm{X}^\prime\bm{b}\). Recordando la expresión (A.1), se llega a que \(\bm{X}^\prime{}\bm{A}\bm{X}\) y \(\bm{X}^\prime{}\bm{b}\) son independientes.
\(iii.\) Siendo \(\bm{A}=\sum_{i=1}^r \bm{v_i}\bm{v_i}^\prime{}\) y \(\bm{B}=\sum_{j=1}^s \bm{\omega_i}\bm{\omega_i}^\prime{},\) con \(\bm{A}\bm{B}=\bm{0}\), se tiene que \(\bm{v_k}^\prime{}\bm{\omega_l}=0\) para todo \(k\in\{1,\ldots,r\}\) y todo \(l\in\{1,\ldots,s\}\).
Ahora, como \(\bm{v_k}^\prime{}\bm{\omega_l}=0\), aplicando el apartado (ii) del Teorema A.2, tenemos que \(\bm{X}^\prime{}\bm{v_1},\ldots,\bm{X}^\prime{}\bm{v_r}\) son independientes de \(\bm{X}^\prime{}\bm{\omega_1},\ldots,\bm{X}^\prime{}\bm{\omega_s}\), y en base a la expresión (A.1) y su análogo para \(\bm{X}^\prime{}\bm{B}\bm{X}\), se concluye que \(\bm{X}^\prime{}\bm{A}\bm{X}\) y \(\bm{X}^\prime{}\bm{B}\bm{X}\) son independientes.
El teorema siguiente es la versión multivariante del Teorema de Fisher.
Teorema A.4 Sean \(\bm{x_1},\ldots,\bm{x_n}\in N_d(\mu,\bm\Sigma)\) independientes. Entonces el vector de medias y la matriz de covarianzas muestrales verifican
\({\overline{\bm{x}}=\frac{1}{n}\sum_{i=1}^n \bm{x_i} \in N_d\left(\bm{\mu},\frac{1}{n}\bm\Sigma\right)}.\)
\({n\bm{S}=\sum_{i=1}^n \left(\bm{x_i}-\overline{\bm{x}}\right)\left(\bm{x_i}-\overline{\bm{x}}\right)^\prime{} \in W_d\left(\bm\Sigma,n-1\right)}.\)
\(\overline{\bm{x}}\) y \(\bm{S}\) son independientes.
Dem. La demostración es idéntica a la correspondiente al Teorema de Fisher en el caso unidimensional. Así, se empieza observando que basta hacer la demostración suponiendo que \(\bm{\mu}=\bm{\bm{0}}\). En el caso general, bastaría considerar \(\bm{y}=\bm{x}-\bm{\mu}\), que serían observaciones con media cero, y tener en cuenta que \(\overline{\bm{y}}=\overline{\bm{x}}-\bm{\mu}\) y que la matriz de covarianzas muestral no se ve afectada por la resta de \(\bm{\mu}\).
\(i.\) Tomamos el vector \(\bm{b}=(1/n,\ldots,1/n)^\prime{}\) y aplicamos el Teorema A.2, apartado (i), teniendo en cuenta que en este caso \(\|\bm{b}\|^2=1/n\).
\(ii.\) Consideramos la matriz
\[\bm{A}=\bm{M}=\left(\begin{array}{cccc} 1-1/n & -1/n & \cdots & -1/n \\ -1/n & 1-1/n & \ddots & \vdots \\ \vdots & \ddots & \ddots & -1/n \\ -1/n & \cdots & -1/n & 1-1/n \end{array}\right)=\bm{I_n}-(1/n)\bm{1_n}\bm{1_n}^\prime{}\] que tiene el valor \((1-1/n)\) en la diagonal y el valor \((-1/n)\) fuera de la diagonal. La notación \(\bm{1_n}\) significa \(\bm{1_n}=(1,\ldots,1)^\prime{}\), esto es, un vector compuesto por unos en todas sus componentes.
La matriz \(\bm{M}\) es muy importante en la Estadística. Su efecto sobre el conjunto de observaciones es el siguiente:
\[\bm{M}\bm{X}=\left(\begin{array}{c} \left(\bm{x_1}-\overline{\bm{x}}\right)^{\prime} \\ \vdots \\ \left(\bm{x_n}-\overline{\bm{x}}\right)^{\prime} \end{array}\right).\] De modo que \(\bm{M}\) es una matriz centralizadora, pues aplicada a un conjunto de datos, los centra, al restar a cada dato la media. Además, si se emplea como forma cuadrática, se tiene que
\[\begin{aligned} \bm{X}^\prime{}\bm{M}\bm{X}&\stackrel{(a)}{=}\bm{X}^\prime{}\bm{M}\bm{M}\bm{X}\\ &\stackrel{(b)}{=}\ (\bm{M}\bm{X})^\prime{}(\bm{M}\bm{X})\\ &=\ \left(\bm{x_1}-\overline{\bm{x}},\ldots, \bm{x_n}-\overline{\bm{x}}\right)\cdot \left(\begin{array}{c} \left(\bm{x_1}-\overline{\bm{x}}\right)^{\prime} \\ \vdots \\ \left(\bm{x_n}-\overline{\bm{x}}\right)^{\prime} \end{array}\right)\\ &=\sum_{i=1}^n \left(\bm{x_i}-\overline{\bm{x}}\right)\left(\bm{x_i}-\overline{\bm{x}}\right)^{\prime}. \end{aligned}\]
En la igualdad (a) se ha empleado que \(\bm{M}\) es una matriz idempotente y en la igualdad (b) que es simétrica. Es fácil comprobar que \(\bm{M}\) es una matriz simétrica, idempotente y de rango \((n-1)\). Pero entonces el Teorema A.3, apartado (i), permite concluir la demostración de que la matriz de covarianzas muestral tiene distribución Wishart con matriz \(\bm\Sigma\) y \((n-1)\) grados de libertad.
\(iii.\) La independencia se deduce del Teorema A.3, apartado (ii), al observar que \(\bm{M}\bm{b}=\bm{0}\).