6.4 Varios grupos con distribuciones conocidas
Supongamos que están definidos \(I\) grupos, y queremos construir una regla discriminante que permita clasificar en alguno de los grupos en función del resultado de un vector aleatorio \(\bm{x}\). Consideramos \(\pi_1,\ldots,\pi_I\) la distribucion a priori sobre los \(I\) grupos, y \(f_1,\ldots,f_I\) las funciones de densidad o probabilidad de \(\bm{x}\) condicionadas a cada uno de los grupos. La regla discriminante óptima consistirá en
\[\mbox{Clasificar en el grupo}\ \ g \ \ \mbox{si}\qquad \pi_g f_g(\bm{x})=\max_{i\in\{1,\ldots,I\}} \pi_i f_i(\bm{x}).\] Esta regla es la que clasifica en el grupo con mayor probabilidad a posteriori, y es la regla de máxima verosimilitud si se omiten las probabilidades a priori.
6.4.1 Clasificación óptima de varias poblaciones normales
Pensemos que los grupos tienen las mismas probabilidades a priori, y que las distribuciones \(f_i\) son normales de medias \(\bm{\mu_1},\ldots,\bm{\mu_I}\), y con la misma matriz de covarianzas \(\bm\Sigma\). Entonces la regla anterior se reduce a
\[\begin{equation} \mbox{Clasificar en el grupo}\ \ g \ \ \mbox{si}\ \left(\bm{x}-\bm{\mu_g}\right)^\prime{}\bm{\Sigma}^{-1}\left(\bm{x}-\bm{\mu_g}\right) =\min_{i\in\{1,\ldots,I\}} \left(\bm{x}-\bm{\mu_i}\right)^\prime{}\bm{\Sigma}^{-1}\left(\bm{x}-\bm{\mu_i}\right) \tag{6.1} \end{equation}\] esto es, se clasifica la observación \(\bm{x}\) en el grupo cuya media está más próxima, bajo la distancia de Mahalanobis.
Cuando sólo hay dos grupos, hemos visto que esta regla es equivalente a efectuar la transformación lineal \(\bm{\lambda}^\prime{}\bm{x}\) (siendo \(\bm{\lambda}=\bm{\Sigma}^{-1}(\bm{\mu_1}-\bm{\mu_2})\)) y clasificar en el grupo 1 si \(\bm{\lambda}^\prime{}\bm{x}\) está más próximo a \(\bm{\lambda}^\prime{}\bm{\mu_1}\) que a \(\bm{\lambda}^\prime{}\bm{\mu_2}\). Cuando hay varios grupos, la regla discriminante también se convierte en un criterio lineal, aunque necesitaremos más de una transformación lineal.
Pensemos ahora que se dispone de una muestra procedente de cada grupo
\[\begin{array}{ccccc} \bm{x_{11}} & \cdots & \bm{x_{1,n_1}} & \mbox{de una población (o grupo)} & N_d(\bm{\mu_1},\bm{\Sigma_1}) \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ \bm{x_{I1}} & \cdots & \bm{x_{I,n_I}} &\mbox{de una población (o grupo)} & N_d(\bm{\mu_I},\bm{\Sigma_I}) \end{array}\]
Este tipo de observaciones son las que se obtienen en un modelo de análisis multivariante de la varianza con matrices de covarianzas desiguales.
En esta situación, suponiendo unas probabilidades a priori \(\pi_1,\ldots,\pi_I\), la regla óptima dada por la expresión (6.1), se puede reducir a
\[\mbox{Clasificar en el grupo}\ \ g \ \ \mbox{si}\qquad d_g^Q (\bm{x})=\max_{i\in\{1,\ldots,I\}} d_i^Q(\bm{x})\] siendo
\[d_i^Q(\bm{x})=-\frac{1}{2}\log \left|\bm{\Sigma_i}\right| -\frac{1}{2}\left(\bm{x}-\bm{\mu_i}\right)^\prime{}\bm{\Sigma_i}^{-1}\left(\bm{x}-\bm{\mu_i}\right) +\log \pi_i\qquad\forall i\in\{1,\ldots,I\}.\]
Las funciones \(d_i^Q(\bm{x})\) se pueden denominar funciones de clasificación, pues para clasificar a un individuo con observación \(\bm{x}\), se calculan las funciones de clasificación que le corresponden en cada grupo, \(d_i^Q(\bm{x})\), y se asigna al grupo cuya función sea más grande. El superíndice \(Q\) en \(d_i^Q(\bm{x})\) se debe a que estas funciones son cuadráticas, pues como ya vimos en el tema anterior, si las matrices de covarianzas son diferentes dentro de cada grupo, entonces la regla óptima es cuadrática. La muestra anterior servirá para estimar la regla discriminante, sustituyendo en las funciones de clasificación los vectores de medias y las matrices de covarianzas por sus análogos empíricos,
\[\hat{d}_i^Q(\bm{x})=-\frac{1}{2}\log \left|\bm{S_i}\right| -\frac{1}{2}\left(\bm{x}-\overline{\bm{x_{i}}}\right)^\prime{}\bm{S_i}^{-1}\left(\bm{x}-\overline{\bm{x_{i}}}\right) +\log \pi_i\qquad\forall i\in\{1,\ldots,I\}.\]
Si se puede suponer que las matrices de covarianzas dentro de cada grupo son iguales, esto es, \(\bm{\Sigma_1}=\cdots=\bm{\Sigma_I}=\bm\Sigma\), entonces en las funciones de clasificación se puede suprimir la parte cuadrática, pues es la misma para todos los grupos, y resultan las siguientes funciones de clasificación lineales:
\[d_i(\bm{x})=\bm{\mu_i}^{\prime}\bm{\Sigma}^{-1}\bm{x}-\frac{1}{2}\bm{\mu_i}^{\prime}\bm{\Sigma}^{-1}\bm{\mu_i}+\log \pi_i \qquad\forall i\in\{1,\ldots,I\}\] que se estiman mediante
\[\hat{d}_i(\bm{x})=\overline{\bm{x_{i}}}^{\prime}\bm{S}^{-1}\bm{x}-\frac{1}{2}\overline{\bm{x_{i}}}^{\prime}\bm{S}^{-1}\overline{\bm{x_{i}}}+\log \pi_i \qquad\forall i\in\{1,\ldots,I\}\] donde \(\bm{S}=(n-I)^{-1}\sum_{i=1}^I (n_i-1)\bm{S_i}\) es la estimación de la matriz de covarianzas común.
En estas funciones lineales los coeficientes vienen dados por los vectores \(\overline{\bm{x_{i}}}^{\prime}\bm{S}^{-1}\) y las constantes se obtienen de \(\log \pi_i-\frac{1}{2}\overline{\bm{x_{i}}}^{\prime}\bm{S}^{-1}\overline{\bm{x_{i}}}\).