Capítulo2 Inferencia en poblaciones normales
Muchos de los métodos de contrastes de hipótesis y construcción de intervalos de confianza en el contexto unidimensional asumen que la distribución de los datos es normal univariante. De la misma manera, la mayor parte de los procedimientos multivariantes están basados en la distribución normal multivariante. Una de las principales ventajas de la distribución normal multivariante es que puede ser descrita totalmente utilizando únicamente su vector de medias y matriz de covarianzas. Además, las combinaciones lineales de normales siguen siendo normales e, incluso cuando los datos no provienen exactamente de una distribución normal, ésta puede servir como una buena aproximación (especialmente al hacer inferencia que involucre el vector de medias muestrales, que será aproximadamente normal multivariante por el Teorema Central del Límite).
Revisaremos en la primera parte de este capítulo la definición de distribución normal multivariante junto con algunas de sus propiedades. En el resto del tema veremos tareas de inferencia sobre el vector de medias y la matriz de covarianzas de una población normal multivariante, en base a una muestra aleatoria simple extraída de ella. También se tratarán problemas que involucren a varias poblaciones. Muchos procedimientos resultarán ser extensiones naturales de los métodos ya conocidos para poblaciones normales univariantes, mientras que en algún caso surgirán problemas nuevos, por ejemplo, comparación entre componentes del vector de medias o cuestiones de inferencia simultánea; en definitiva, situaciones provocadas por la dimensión múltiple.
Aunque el vector de medias muestral y la matriz de covarianzas muestral son estimadores naturales de sus análogos poblacionales, también vamos a ver que son los estimadores de máxima verosimilitud, y de paso, introducimos la función de verosimilitud y en general la idea de verosimilitud, que será empleada en varias ocasiones a lo largo de este tema.
Por otro lado, al estudiar los procedimientos naturales de inferencia sobre el vector de medias y la matriz de covarianzas, veremos que la suposición de normalidad en la distribución del vector de variables observadas es esencial en muchos de ellos. Por ejemplo, la forma elíptica de las regiones de confianza es consustancial a la forma de la distribución normal multivariante. Si la forma en que se presentaran las observaciones en el espacio no fuera elíptica, tampoco lo debería ser una región de confianza para el vector de medias. La última parte del tema está dedicada a métodos de contraste de normalidad en observaciones multivariantes. Existen varios procedimientos para evaluar si un conjunto de datos proviene de una población normal multivariante. Una primera posibilidad sería evaluar si cada una de las variables es normal univariante. Como hemos comentado, la normalidad multivariante implica la normalidad de distribuciones marginales unidimensionales. Por lo tanto, si alguna de las variables no es normal univariante, el vector no será normal multivariante. Tiene sentido entonces hacer un estudio inicial sobre las variables de forma individual. En la Sección 2.9 repasaremos en primer lugar los métodos de contraste de la normalidad en el caso univariante, prestando especial atención a los métodos susceptibles de ser extendidos al caso multivariante. De todos modos, los contrastes de normalidad univariante no serán en general suficientes, ya que la existencia de normalidad univariante de todas las variables no garantiza la normalidad multivariante de los datos. A continuación se abordan algunos métodos (los más representativos) para el contraste de normalidad multivariante. Están basados en la extensión de las medidas de asimetría, kurtosis, así como del test de Shapiro-Wilk al caso multivariante.