\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

1.4 Vector de medias y matrices de covarianzas para subconjuntos de variables

En algunas ocasiones podemos estar interesados en dos o más subconjuntos de variables medidas sobre las mismas unidades muestrales.

Ejemplo. Un estudio sobre diabetes analiza diferentes variables de interés sobre pacientes que no presentan la enfermedad. Las variables de mayor relevancia para el estudio son:

  • \(x_1\)= Intolerancia a la glucosa

  • \(x_2\)= Respuesta de la insulina a la glucosa oral

  • \(x_3\)= Resistencia de la insulina

Se recogen igualmente otras dos variables de menor relevancia:

  • \(y_1\)= Peso relativo

  • \(y_2\)= Glucemia basal

Supongamos, como en el ejemplo anterior, que tenemos dividido el vector aleatorio original en dos subvectores \(\bm{y}\) y \(\bm{x}\) con \(p\) y \(q\) variables, respectivamente. Tendremos entonces:

\[E\left(\begin{array}{c}\bm{y}\\ \bm{x}\end{array}\right)=\left(\begin{array}{c}E(\bm{y})\\ E(\bm{x})\end{array}\right)=\left(\begin{array}{c}\bm{\mu_y}\\ \bm{\mu_x}\end{array}\right)\] y

\[\textnormal{Cov}\left(\begin{array}{c}\bm{y}\\ \bm{x}\end{array}\right)=\bm{\Sigma}=\left(\begin{array}{cc}\bm{\Sigma_{yy}}&\bm{\Sigma_{yx}}\\ \bm{\Sigma_{xy}}&\bm{\Sigma_{xx}}\end{array}\right).\]

En las expresiones anteriores \(\left(\begin{array}{c}\bm{y}\\ \bm{x}\end{array}\right)\) denota el vector original de \(p+q\) variables. La submatriz \(\bm{\Sigma_{yy}}\) es la matriz de covarianzas \(p\times p\) del subvector \(\bm{y}\). Del mismo modo, la submatriz \(\bm{\Sigma_{xx}}\) es la matriz de covarianzas \(q\times q\) del subvector \(\bm{x}\). La submatriz \(\bm{\Sigma_{yx}}\) es una matriz \(p\times q\) con las covarianzas de cada variable \(y_j\) con \(x_k\). Nótese que \(\bm{\Sigma_{xy}}=\bm{\Sigma_{yx}}^\prime\).

Estas propiedades a nivel poblacional se trasladan directamente al vector de medias y matriz de covarianzas muestrales. Cada observación en la muestra se podrá particionar de la siguiente manera:

\[\left(\begin{array}{c}\bm{y_i}\\ \bm{x_i}\end{array}\right)=\left(\begin{array}{c} y_{i1}\\ \vdots\\ y_{ip}\\ x_{i1}\\ \vdots\\ x_{iq}\\ \end{array}\right),\ \ i=1,\ldots,n.\]

Para la muestra de \(n\) observaciones, el vector de medias muestral y la matriz de covarianzas muestrales tendrán el siguiente aspecto: \[\left(\begin{array}{c}\overline{\bm{y}}\\ \overline{\bm{x}}\end{array}\right)=\left(\begin{array}{c}\overline{y}_1\\ \vdots\\\overline{y}_p \\\overline{x}_1\\ \vdots\\\overline{x}_q\end{array}\right),\ \ \ \ \ \ \ \ \bm{S}=\left(\begin{array}{cc}\bm{S_{yy}}&\bm{S_{yx}}\\ \bm{S_{xy}}&\bm{S_{xx}}\end{array}\right).\]

Lo visto hasta ahora se puede generalizar de forma natural al caso en que tengamos el vector original dividido en más de dos subvectores.

Ejemplo. Los datos del estudio sobre diabetes se encuentran en el fichero diabetes.txt.

> diab <- read.table("data/diabetes.txt", header = TRUE)
> head(diab)
    y1  y2  x1  x2  x3
1 0.81  80 356 124  55
2 0.95  97 289 117  76
3 0.94 105 319 143 105
4 1.04  90 356 199 108
5 1.00  90 323 240 143
6 0.76  86 381 157 165
> colMeans(diab)
         y1          y2          x1          x2          x3 
  0.9178261  90.4130435 340.8260870 171.3695652  97.7826087 
> cov(diab)
            y1         y2           x1           x2          x3
y1  0.01618184   0.216029    0.7871691   -0.2138454    2.189072
y2  0.21602899  70.558937   26.2289855  -23.9560386  -20.841546
x1  0.78716908  26.228986 1106.4135266  396.7323671  108.383575
x2 -0.21384541 -23.956039  396.7323671 2381.8826087 1142.637681
x3  2.18907246 -20.841546  108.3835749 1142.6376812 2136.396135

1.4.1 Combinaciones lineales de variables

Con frecuencia estamos interesados en combinaciones lineales de las variables de estudio \(x_1,\ldots, x_d\). Sean \(a_1,\ldots,a_d\) constantes y consideremos la combinación lineal

\[z=a_1x_1+\ldots+a_dx_d=\bm{a}^\prime\bm{x},\] donde \(\bm{a}=(a_1,\ldots,a_d)^\prime\). Para la combinación lineal\(z=\bm{a}^\prime\bm{x}\) se tiene que \(E(z)=\bm{a}^\prime E(\bm{x})\) y \(\textnormal{Var}(z)=\bm{a}^\prime\bm\Sigma\bm{a}\).

De forma más general, si consideramos \(k\) combinaciones lineales

\[\bm{z}=\left(\begin{array}{c}z_1\\z_2\\ \vdots\\ z_k\end{array}\right)=\left(\begin{array}{c}a_{11}x_1+\ldots+a_{1d}x_d\\a_{21}x_1+\ldots+a_{2d}x_d\\ \vdots\\ a_{k1}x_1+\ldots+a_{kd}x_d\end{array}\right)=\left(\begin{array}{c}\bm{a_1}^\prime\bm{x}\\\bm{a_2}^\prime\bm{x}\\ \vdots\\ \bm{a_k}^\prime\bm{x}\end{array}\right)=\bm{A}\bm{x},\] entonces \(E(\bm{z})=\bm{A} E(\bm{x})\) y \(\bm{\Sigma_z}=\bm{A}\bm\Sigma\bm{A}^\prime\). Para la transformación más general \(\bm{z}=\bm{A}\bm{x}+\bm{b}\), se tiene \(E(\bm{z})=\bm{A} E(\bm{x})+\bm{b}\) y \(\bm{\Sigma_z}=\bm{A}\bm\Sigma\bm{A}^\prime\).

Consideremos ahora el análogo muestral. Si aplicamos la transformación a todos los elementos de la muestra, es decir, si hacemos \(\bm{z_i}=\bm{A}\bm{x_i}+\bm{b}\) para \(i=1,\ldots, n\), entonces \(\overline{\bm{z}}=\bm{A} \overline{\bm{x}}+\bm{b}\) y \(\bm{S_z}=\bm{A}\bm{S}\bm{A}^\prime\).

Ejemplo. Para el ejemplo del estudio sobre diabetes consideramos las siguientes transformaciones lineales:

  • \(z_1=x_1+2x_2-x3\)

  • \(z_2=y_1+4y_2\)

En primer lugar calculamos \(\overline{z}_1\), \(\overline{z}_2\), \(s^2_{z_1}\), \(s^2_{z_2}\) y \(s_{z_1z_2}\) a partir de los datos transformados

> attach(diab)
> z1 <- x1 + 2 * x2 - x3
> z2 <- y1 + 4 * y2
> mean(z1)
[1] 585.7826
> mean(z2)
[1] 362.57
> var(z1)
[1] 9569.952
> var(z2)
[1] 1130.687
> cov(z1, z2)
[1] -5.195778

De otro modo, podemos escribir

\[\bm{z}=\left(\begin{array}{c}z_1\\z_2\end{array}\right)=\left(\begin{array}{ccccc}0&0&1&2&-3\\1&4&0&0&0\end{array}\right)\left(\begin{array}{c}y_1\\y_2\\x_1\\x_2\\x_3\end{array}\right)=\bm{A}\left(\begin{array}{c}y_1\\y_2\\x_1\\x_2\\x_3\end{array}\right).\]

Teniendo en cuenta las propiedades de las transformaciones lineales discutidas anteriormente, se tiene también:

> A <- rbind(c(0, 0, 1, 2, -1), c(1, 4, 0, 0, 0))
> A %*% colMeans(diab)
         [,1]
[1,] 585.7826
[2,] 362.5700
> A %*% cov(diab) %*% t(A)
            [,1]        [,2]
[1,] 9569.951691   -5.195778
[2,]   -5.195778 1130.687409