1.2 Vectores aleatorios
Un vector aleatorio \(d\)-dimensional \(\bm{x}\in\mathbb{R}^d\) es una colección de variables aleatorias \(\bm{x}=(x_1,\ldots,x_d)^\prime{}\) medidas simultáneamente sobre el mismo individuo.
Ejemplo. En el estudio del gorrión pantanero carileonado (Ammodramus caudacutus), podemos considerar el vector aleatorio \(5\)-dimensional \(\bm{x}=(x_1,\ldots,x_5)^\prime{}\) , siendo:
\(x_1\)= Sexo.
\(x_2\)= Tamaño del ala.
\(x_3\)= Longitud del tarso.
\(x_4\)= Tamaño de cabeza.
\(x_5\)= Peso.
Cada una de las componentes de un vector aleatorio es una variable aleatoria y, por lo tanto, se puede calcular su media, su varianza y su distribución. Sin embargo, hay algunas propiedades conjuntas, como son la covarianza o la distribución conjunta que reflejan la relación entre las variables que forman el vector. Las medidas más importantes de las distribuciones de probabilidad de vectores aleatorios son el vector de medias \(\bm\mu\) y la matriz de covarianzas \(\bm\Sigma\).
Dado un vector aleatorio \(d\)-dimensional \(\bm{x}\in\mathbb{R}^d\), se define el vector de medias como
\[{\bm{\mu}}=E({\bm{x}})=\left(\begin{array}{c}E(x_1)\\ \vdots \\ E(x_d) \end{array}\right).\]
Es decir, el vector de medias \(\bm\mu\) es el vector cuyas componentes son las esperanzas, o medias, de las componentes del vector aleatorio.
La generalización de la varianza unidimensional al contexto multivariante nos lleva a la definición de matriz de covarianzas. Dado un vector aleatorio \(\bm{x}\in\mathbb{R}^d\) con vector de medias \(\bm\mu\), se define la matriz de covarianzas \(\bm\Sigma\) como
\[\label{Sigma} \bm\Sigma=E((\bm{x}-\bm\mu)(\bm{x}-\bm\mu)^\prime{}).\]
Así definida, la matriz de covarianzas \(\bm\Sigma\) es una matriz de dimensión \(d\times d\), simétrica y semidefinida positiva. Podemos comprobar que además los elementos de la diagonal son las varianzas de cada una de las componentes del vector aleatorio y en cada entrada \((j,k)\) se tiene la covarianza entre las variables \(x_j\) y \(x_k\),
\[\textnormal{Cov}(x_j,x_k)=\sigma_{jk}=E((x_j-E(x_j))(x_k-E(x_k))).\]
Fíjate que
\[\textnormal{Cov}(x_j,x_j)=\sigma_{jj}=E((x_j-E(x_j))^2)\] representa la varianza de la variable \(x_j\), que denotaremos también como \(\sigma_j^2\).En resumen,
\[\bm\Sigma=\left(\begin{array}{cccc}\textnormal{Var}(x_1)&\textnormal{Cov}(x_1,x_2)&\ldots&\textnormal{Cov}(x_1,x_d)\\ \textnormal{Cov}(x_2,x_1)&\textnormal{Var}(x_2)&\ldots&\textnormal{Cov}(x_2,x_d)\\ \vdots&\vdots&\ddots&\vdots\\ \textnormal{Cov}(x_d,x_1)&\textnormal{Cov}(x_d,x_2)&\ldots&\textnormal{Var}(x_d)\end{array}\right)=\left(\begin{array}{cccc}\sigma_1^2&\sigma_{12}&\ldots&\sigma_{1d}\\ \sigma_{21}&\sigma_{2}^2&\ldots&\sigma_{2d}\\ \vdots&\vdots&\ddots&\vdots\\ \sigma_{d1}&\sigma_{d2}&\ldots&\sigma_{d}^2\end{array}\right).\]
Puedes también demostrar como ejercicio que \(\bm\Sigma\) puede ser expresada como
\[\bm\Sigma=E(\bm{x}\bm{x}^\prime)-\bm\mu\bm\mu^\prime.\]
Es difícil comparar covarianzas entre pares de variables ya que estas dependen de la escala de medida. Para obtener una medida de la relación lineal entre pares de variables que sea invariante ante cambios de escala podemos estandarizar la covarianza dividiendo por el producto de desviaciones típicas de las variables involucradas. Esta covarianza estandarizada es lo que se denomina correlación. Así, la correlación entre las variables \(x_i\) y \(x_j\) se calcula como
\[\rho_{ij}=\frac{\sigma_{ij}}{\sigma_i\sigma_j}.\]
La matriz de correlaciones será por lo tanto
\[\bm\rho=\left(\begin{array}{cccc}1&\rho_{12}&\ldots&\rho_{1d}\\ \rho_{21}&1&\ldots&\rho_{2d}\\ \vdots&\vdots&\ddots&\vdots\\ \rho_{d1}&\rho_{d2}&\ldots&1\end{array}\right).\]
Se verifica
\[\bm\rho=\bm{D_\Sigma}^{-1}\bm{\Sigma}\bm{D_\Sigma}^{-1}\] siendo \(\bm{D_\Sigma}\) la matriz diagonal de orden \(d\) construida colocando en la diagonal principal las desviaciones típicas de las variables, es decir, \(\bm{D_\Sigma}=\textnormal{diag}(\sigma_1,\ldots,\sigma_d)\). Equivalentemente,
\[\bm{\Sigma}=\bm{D_\Sigma}\bm\rho\bm{D_\Sigma}.\]