Capítulo1 Introducción al análisis multivariante
Son muchas las situaciones reales en las que necesitamos tener en cuenta varias variables de forma simultánea. Podemos pensar en problemas sencillos en todas las disciplinas en los que necesitemos analizar datos de distintas variables o características medidas sobre los individuos de una muestra. En algunas ocasiones puede resultar adecuado estudiar cada una de las variables de interés de forma individual. Sin embargo, en general las variables están relacionadas entre sí de tal manera que los análisis individuales proporcionan poca información sobre la estructura del conjunto de datos.
Ejemplo. Un estudio pretende analizar diferentes medidas corporales del gorrión pantanero carileonado (Ammodramus caudacutus), una especie de ave que habita en humedales de Norteamérica. Se seleccionan como variables del estudio el sexo, el tamaño de las alas, la longitud del tarso, el tamaño de la cabeza y el peso.
Ejemplo. Para llevar a cabo un estudio sobre lateralidad y aprendizaje se realizó un cuestionario a 237 estudiantes de Estadística de la Universidad de Adelaida. Entre las variables recogidas hay variables cualitativas (como el sexo, mano con la que escribe, etc.) y variables cuantitativas (anchura de la mano con la que escribe, anchura de la mano con la que no escribe, etc.).
Ejemplo. El conjunto de datos de iris de Fisher’s es un conjunto de datos clásico que recoge la medida en cm. de las variables longitud y anchura de sépalo y longitud y anchura de pétalo para flores de tres especies diferentes de iris (iris setosa, versicolor y virginica).
Se puede definir el análisis multivariante como el conjunto de métodos estadísticos que permiten analizar datos que surgen cuando se miden distintas variables en cada uno de los individuos de una o varias muestras. Los avances en informática y en el procesamiento de grandes bancos de datos ha favorecido el desarrollo del análisis multivariante en muchas disciplinas. Si bien tradicionalmente el análisis multivariante se aplicaba fundamentalmente en Biología, en la actualidad son muchos los campos de aplicación. Las técnicas de análisis multivariante incluyen tanto métodos puramente descriptivos que tienen por objetivo extraer información de los datos disponibles, como métodos de inferencia que, a través de la construcción de modelos, pretenden obtener conclusiones sobre la población que ha generado los datos. A continuación describimos algunos de los métodos de análisis multivariante que podemos llevar a cabo cuando disponemos de medidas de un conjunto de variables.
- Contrastar la hipótesis de que las medias de las variables analizadas tienen un valor específico (inferencia sobre la media en poblaciones multivariantes).
- Contrastar la hipótesis de que las variables son incorreladas y tienen varianza común (inferencia sobre la matriz de covarianzas).
- Representar la información mediante un número menor de variables construidas como combinaciones lineales de las originales y que expliquen la mayor parte de la variabilidad original (análisis de componentes principales).
- Encontrar un modelo que nos permita predecir un grupo de variables del conjunto original a partir de otro grupo de variables (modelos de regresión multivariante).
- Comparar las medias de las variables en dos poblaciones (test de Hotelling).
- Comparar las medias de las variables en más de dos poblaciones (MANOVA).
- Si los individuos pertenecen a diferentes grupos, encontrar la combinación lineal de las variables que mejor separe dichos grupos (análisis discriminante).
- Clasificar a un conjunto de observaciones en grupos homogéneos (técnicas de formación de grupos).