A.4 Distribución \(\Lambda\) de Wilks
A.4.1 Introducción
La distribución \(\Lambda\) de Wilks sirve para extender al caso multivariante la distribución \(F\) de Snédecor. Así, si la \(F\) de Snédecor se obtiene mediante el cociente de dos variables de tipo ji-cuadrado, la \(\Lambda\) de Wilks surge como el cociente de los determinantes de dos matrices de covarianzas. Iremos viendo cómo se llega a ese cociente.
El uso más destacable de la distribución \(F\) de Snédecor es para realizar el test \(F\) de comparación de modelos lineales. En el test \(F\) se contrastaba una hipótesis nula que constituía una restricción sobre un modelo más general. El modelo general era la hipótesis alternativa.
Así, si \(RSS\) representaba la suma residual de cuadrados bajo la hipótesis alternativa y \(RSS_0\) la misma suma residual bajo la hipótesis nula, entonces necesariamente \(RSS_0>RSS\) y el estadístico de contraste se calculaba así:
\[\frac{(RSS_0-RSS)/q}{RSS/(n-p)}\in F_{q,n-p}\] donde \(q\) y \(n-p\) eran los grados de libertad de numerador y denominador (\(q\) era el número de restricciones, \(n\) el número de individuos y \(p\) el número de parámetros bajo el modelo general).
En el caso multivariante, esto es, en modelos lineales con respuesta multivariante, los residuos de la regresión serán vectores, y en lugar de sumas de cuadrados, generan matrices de covarianzas.
La idea será comparar la matriz de covarianzas residual, que vamos a denotar por \(\bm{E}\), con la matriz de covarianzas asociada a la restricción, que denotamos por \(\bm{H}\), y juega el papel de \((RSS_0-RSS)\). Si \(\bm{H}\) es muy grande, en comparación con \(\bm{E}\), entonces se rechaza la hipótesis nula. La forma de medir si una matriz de covarianzas es grande o pequeña será a través de su determinante.
A.4.2 Definición y propiedades
Vamos a definir la distribución \(\Lambda\) de Wilks como el cociente entre el determinante de \(\bm{E}\) y el determinante de \(\bm{E}+\bm{H}\). Recordemos que \(\bm{E}\) estaba asociado a la matriz de covarianzas residual, y \(\bm{H}\) a la matriz de covarianzas adicional, debida a las restricciones.
La razón para no comparar directamente \(\bm{H}\) con \(\bm{E}\), sino \(\bm{E}+\bm{H}\) con \(\bm{E}\) es que \(\bm{H}\) podría tener algún autovalor igual a cero, y eso haría que su determinante fuera cero. Ese problema desaparece al sumarlo a \(\bm{E}\), pues \(\bm{E}\) siempre tiene todos sus autovalores distintos de cero, ya que sus grados de libertad son \((n-p)\), en los problemas de regresión, donde \(n\) es el número de individuos y \(p\) los parámetros del modelo.
Lo anterior es la justificación práctica. A continuación se ofrece la definición formal y genérica de la distribución de Wilks.
Definición A.3 Sean \(\bm{E}\in W_d(\bm{I_d},m_E)\) y \(\bm{H}\in W_d(\bm{I_d},m_H)\) independientes, y \(m_E\geq d\). Diremos que la variable aleatoria unidimensional \[\frac{|\bm{E}|}{|\bm{E}+\bm{H}|}=\left|\bm{I_d}+\bm{E}^{-1}\bm{H}\right|^{-1} \in \Lambda(d,m_H,m_E)\] tiene una distribución \(\Lambda\) de Wilks de parámetros \(d\), \(m_H\) y \(m_E\).
El siguiente resultado, que presentamos sin demostración, permite simplificar la construcción de tablas para la distribución \(\Lambda\) de Wilks, pues los dos primeros parámetros se pueden intercambiar en cierta manera.
Teorema A.7 Si denotamos mediante \(\psi(d,m_H,m_E)\) la distribución conjunta de los autovalores no nulos de \(\bm{E}^{-1}\bm{H}\), con \(m_E\geq d\), \(m_H\geq 1\), \(d\geq 1\), entonces
\[\psi(d,m_H,m_E)=\psi(m_H,d,m_E-d+m_H).\] En consecuencia,
\[\Lambda(d,m_H,m_E)\stackrel{d}{=}\Lambda(m_H,d,m_E-d+m_H).\]
A continuación se presenta un compendio de propiedades de las distribuciones de Hotelling y de Wilks que facilitan la obtención de cuantiles u otros elementos necesarios para la inferencia.