\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

6.2 Criterios para elegir una regla discriminante

6.2.1 Minimizar la probabilidad total de clasificación incorrecta

Pensemos en una población que se encuentra dividida en individuos pertenecientes al grupo \(G_1\) e individuos pertenecientes al grupo \(G_2\), con proporciones respectivas \(\pi_1\) y \(\pi_2=1-\pi_1\). Así, \(\pi_1\) y \(\pi_2\) se convierten en probabilidades originales de pertenencia a cada grupo, antes de observar el vector aleatorio \(\bm{x}\). En consecuencia, la probabilidad total de clasificación incorrecta es

\[P(R,f)=\pi_1 P(2/1) + \pi_2 P(1/2)\] denotando \({R}=(R_1,R_2)^{\prime}\) al vector de regiones de clasificación y \({f}=(f_1,f_2)^{\prime}\) al vector de densidades. Nuestro objetivo será adoptar una regla de clasificación que presente la menor probabilidad total de clasificación incorrecta. Recurrimos a un lema que nos ayudará en este propósito.

Lema 6.1 La integral \(\int_{{R}} g(\bm{x})\,d\bm{x}\) alcanza su mínimo como función de \({R}\) en

\[R^-=\{\bm{x}: g(\bm{x})<0\}.\]

Dem. Denotemos \(R^+=(R^-)^c=\{\bm{x}:g(\bm{x})\geq 0\}\). Para cualquier conjunto \(R\), se tiene \[\begin{aligned} \int_R g(\bm{x})\,d\bm{x} & = & \int_{R\cap R^-} g(\bm{x})\,dx + \int_{R\cap R^+} g(\bm{x})\,d\bm{x} \geq \int_{R\cap R^-} g(\bm{x})\,d\bm{x} \\ & = & \int_{R^-} g(\bm{x})\,d\bm{x} - \int_{R^c\cap R^-} g(\bm{x})\,d\bm{x} \geq \int_{R^-} g(\bm{x})\,d\bm{x},\end{aligned}\] lo cual concluye la demostración del presente lema.

Desarrollando la probabilidad total de clasificación incorrecta, obtenemos

\[\begin{aligned} P({R},{f})&=\pi_1P(2/1)+\pi_2P(1/2)\\ &=\pi_1 (1-\int_{R_1} f_1(\bm{x})\,d\bm{x}) +\pi_2\int_{R_1} f_2(\bm{x})\,d\bm{x} \\ &= \pi_1+\int_{R_1} [\pi_2 f_2(\bm{x})-\pi_1 f_1(\bm{x})]\,d\bm{x}\end{aligned}\]

Por el lema anterior, como función de \(R_1\) alcanza su mínimo en \(R_1=\{\bm{x}:\pi_2 f_2(\bm{x})-\pi_1 f_1(\bm{x})<0\}\), que se corresponde con la regla de clasificación que asigna al grupo \(G_1\) si

\[\frac{f_1(\bm{x})}{f_2(\bm{x})}>\frac{\pi_2}{\pi_1}\] y al grupo \(G_2\) en otro caso. La asignación en la frontera de \(R_1\) no debería ser relevante, ya que no afecta a la probabilidad total. Sin embargo, esto puede dar lugar a varias reglas con la misma probabilidad total. Pero si el vector \(\bm{x}\) es continuo y se cumple alguna otra condición más, \(P(f_1(\bm{x})/f_2(\bm{x})=\pi_2/\pi_1)=0\), por lo que serían reglas equivalentes.

Ejemplo. Supongamos que \(f_i\) es la densidad de \(N_d(\bm{\mu_i}, \bm{\Sigma_i})\), con \(\bm{\Sigma_1}=\bm{\Sigma_2}=\bm{\Sigma}\). Vamos a calcular la regla de clasificación óptima con el criterio anterior y las correspondientes probabilidades de clasificación incorrecta. Las densidades adoptan la forma

\[f_i(\bm{x})=(2\pi)^{-p/2}|\bm\Sigma|^{-1/2} \exp\left[-\frac{1}{2} (\bm{x}-\bm{\mu_i})^{\prime}\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu_i})\right]\] y su cociente será

\[\begin{aligned} \frac{f_1(\bm{x})}{f_2(\bm{x})}&=\exp\left[-\frac{1}{2} (\bm{x}-\bm{\mu_1})^{\prime}\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu_1}) +\frac{1}{2} (\bm{x}-\bm{\mu_2})^{\prime}\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu_2})\right] \\ & = \exp\left[(\bm{\mu_1}-\bm{\mu_2})^{\prime}\bm{\Sigma}^{-1}\bm{x} - \frac{1}{2} (\bm{\mu_1}-\bm{\mu_2})^{\prime}\bm{\Sigma}^{-1}(\bm{\mu_1}+\bm{\mu_2})\right].\end{aligned}\] Tomando logaritmos, la regla de clasificación óptima asigna al grupo \(G_1\) si

\[D(\bm{x})=\bm{\lambda}^{\prime}\left[\bm{x}-\frac{1}{2}(\bm{\mu_1}+\bm{\mu_2})\right]>\log(\pi_2/\pi_1)\] siendo \(\bm{\lambda}=\bm\Sigma^{-1} (\bm{\mu_1}-\bm{\mu_2})\). La ecuación \(D(\bm{x})=\log(\pi_2/\pi_1)\) define un hiperplano que separa los dos grupos.

Para calcular las probabilidades de clasificación incorrecta, observamos que, condicionado a cada grupo, la variable aleatoria \(D(\bm{x})\) tiene distribución normal. Su media y varianza condicionadas son

\[\begin{aligned} E[D(\bm{x})/G_1]&=\bm\lambda^{\prime}\left[\bm{\mu_1}-\frac{1}{2}(\bm{\mu_1}+\bm{\mu_2})\right] =\frac{1}{2} \Delta^2, \\ \textnormal{Var}[D(\bm{x})/G_1]&=\textnormal{Var}[\bm\lambda^{\prime}\bm{x}/G_1]=\bm\lambda^{\prime}\bm\Sigma \bm\lambda=\Delta^2\end{aligned}\] denotando \(\Delta^2=(\bm{\mu_1}-\bm{\mu_2})^{\prime}\bm\Sigma^{-1}(\bm{\mu_1}-\bm{\mu_2})=\bm\lambda^{\prime}(\bm{\mu_1}-\bm{\mu_2})\) al cuadrado de la distancia de Mahalanobis entre las medias \(\bm{\mu_1}\) y \(\bm{\mu_2}\). Entonces

\[\begin{aligned} P(2/1)&= P[D(\bm{x})\leq \log(\pi_2/\pi_1)/G_1]\\ &=P\left[\frac{D(\bm{x})-\Delta^2/2}{\Delta}\leq \frac{\log(\pi_2/\pi_1)-\Delta^2/2}{\Delta} /G_1\right] \\ &=\Phi\left(\frac{\log(\pi_2/\pi_1)-\Delta^2/2}{\Delta}\right).\end{aligned}\] De igual modo, \(E[D(\bm{x})/G_2]=-\frac{1}{2} \Delta^2\) y \(\textnormal{Var}[D(\bm{x})/G_2]=\Delta^2\), y así:

\[\begin{aligned} P(1/2)&= P[D(\bm{x})> \log(\pi_2/\pi_1)/G_2]\\ &=P\left[\frac{D(\bm{x})+\Delta^2/2}{\Delta}> \frac{\log(\pi_2/\pi_1)+\Delta^2/2}{\Delta} /G_2\right] \\ &=1-\Phi\left(\frac{\log(\pi_2/\pi_1)+\Delta^2/2}{\Delta}\right).\end{aligned}\] La probabilidad total de clasificación incorrecta queda:

\[\begin{aligned} P(\mbox{Clasificación incorrecta})&=\pi_1 P(2/1)+\pi_2 P(1/2) \\ &=\pi_1 \Phi\left(\frac{\log(\pi_2/\pi_1)-\Delta^2/2}{\Delta}\right)\\ &\qquad +\pi_2 \left[1-\Phi\left(\frac{\log(\pi_2/\pi_1)+\Delta^2/2}{\Delta}\right)\right].\end{aligned}\] Si \(\pi_1=\pi_2=\frac{1}{2}\), entonces la regla discriminante consiste en clasificar en \(G_1\) si \(D(\bm{x})=\bm\lambda^{\prime}[\bm{x}-\frac{1}{2}(\bm{\mu_1}+\bm{\mu_2})]>\log(\pi_2/\pi_1)=0\), o equivalentemente, si

\[\bm\lambda^{\prime} \bm{x} > \frac{1}{2}\left(\bm\lambda^{\prime}\bm{\mu_1}+\bm\lambda^{\prime}\bm{\mu_2}\right)\] esto es, si \(\bm\lambda^{\prime} \bm{x}\) está más próximo a \(\bm\lambda^{\prime}\bm{\mu_1}\) que a \(\bm\lambda^{\prime}\bm{\mu_2}\). A esto se le conoce como regla discriminante lineal de Fisher (1936).

Ejemplo. En el ejemplo anterior, supongamos que \(\bm{\Sigma_1}\neq \bm{\Sigma_2}\). Entonces

\[\begin{aligned} Q(\bm{x})&=\log(f_1(\bm{x})/f_2(\bm{x})) \\ &= \frac{1}{2}\log(|\bm{\Sigma_2}|/|\bm{\Sigma_1}|) -\frac{1}{2}(\bm{x}-\bm{\mu_1})^{\prime}\bm{\Sigma_1}^{-1} (\bm{x}-\bm{\mu_1}) +\frac{1}{2}(\bm{x}-\bm{\mu_2})^{\prime}\bm{\Sigma_2}^{-1} (\bm{x}-\bm{\mu_2}) \\ &= \frac{1}{2}\log(|\bm{\Sigma_2}|/|\bm{\Sigma_1}|) -\frac{1}{2} \left[ \bm{x}^{\prime}(\bm{\Sigma_1}^{-1}-\bm{\Sigma_2}^{-1}) \bm{x} -2\bm{x}^{\prime}(\bm{\Sigma_1}^{-1} \bm{\mu_1} -\bm{\Sigma_2}^{-1} \bm{\mu_2}) \right]\end{aligned}\] y la regla óptima clasifica en \(G_1\) si \(Q(\bm{x})>\log(\pi_2/\pi_1)\). Pero, mientras \(D(\bm{x})\) es una función lineal, ahora \(Q(\bm{x})\) es una función cuadrática, de modo que la frontera entre las dos regiones ya no es un hiperplano.

6.2.2 Razón de verosimilitudes

Nos situamos en el contexto en que las probabilidades a priori, \(\pi_1\) y \(\pi_2\), son desconocidas o sencillamente no se tienen en cuenta. Una regla de clasificación debería asignar un individuo al grupo más verosímil, que es aquel que otorga mayor probabilidad a su resultado muestral. Esto equivale a clasificar en el grupo \(G_1\) si \(f_1(\bm{x})/f_2(\bm{x})>1\), lo cual coincide con el criterio anterior para \(\pi_1=\pi_2=1/2\).

6.2.3 Minimizar el coste total de clasificación incorrecta

Si asociamos unos costes \(C(2/1)\) y \(C(1/2)\) a cada uno de los errores de clasificación, entonces el coste total esperado es

\[C=\pi_1P(2/1)C(2/1)+\pi_2P(1/2)C(1/2).\] Podemos repetir los argumentos que obtuvieron la regla que minimiza la probabilidad total de clasificación incorrecta sustituyendo \(\pi_1\) y \(\pi_2\) por \(\pi_1C(2/1)\) y \(\pi_2C(1/2)\), ya que en aquellos argumentos no se usó que \(\pi_1+\pi_2=1\). Así, obtendremos que la regla que hace mínimo el coste total esperado consiste en clasificar en el grupo \(G_1\) si

\[\frac{f_1(\bm{x})}{f_2(\bm{x})}>\frac{\pi_2C(1/2)}{\pi_1C(2/1)}.\] Por supuesto, si \(C(2/1)=C(1/2)\), coincide con el criterio que minimiza la probabilidad total de clasificación incorrecta.

6.2.4 Maximizar la probabilidad a posteriori

Consideramos la probabilidad de que el individuo proceda del grupo \(G_1\), conocido el valor del vector aleatorio \(\bm{x}\). Dicha probabilidad se conoce como probabilidad a posteriori y se puede calcular mediante el teorema de Bayes:

\[P(G_1/\bm{x}=\bm{x_0})=\frac{\pi_1 f_1(\bm{x_0})}{\pi_1 f_1(\bm{x_0})+\pi_2 f_2(\bm{x_0})}.\] La probabilidad a posteriori del grupo \(G_2\) se define y obtiene de la misma manera:

\[P(G_2/\bm{x}=\bm{x_0})=\frac{\pi_2 f_2(\bm{x_0})}{\pi_1 f_1(\bm{x_0})+\pi_2 f_2(\bm{x_0})}.\] Una regla de clasificación razonable asignaría al grupo con mayor probabilidad a posteriori, esto es, clasificaría en el grupo \(G_1\) si

\[P(G_1/\bm{x})>P(G_2/\bm{x})\] lo cual coincide con \(f_1(\bm{x})/f_2(\bm{x})>\pi_2/\pi_1\).

6.2.5 Criterio minimax

Un procedimiento que minimice la probabilidad total de clasificación incorrecta puede no prestar suficiente atención a uno de los grupos, en especial si su probabilidad a priori es pequeña. Por ejemplo, esto ocurre en el problema de diagnosis de una enfermedad poco frecuente, donde la probabilidad de un falso negativo puede ser alta sin afectar mucho a la probabilidad total de clasificación incorrecta.

Esto constituye una justificación para el uso de un criterio más conservador, como es el minimax. En este caso, escogemos la regla tal que el máximo de sus dos probabilidades de clasificación incorrecta sea mínima. Consideremos \(P\) una regla de clasificación cualquiera. Entonces, para todo \(\alpha\in[0,1]\),

\[\begin{aligned}\max\{P(2/1),P(1/2)\}&\geq (1-\alpha)P(2/1)+\alpha P(1/2)\\ &\geq (1-\alpha)P_{\alpha}(2/1)+\alpha P_{\alpha}(1/2), \end{aligned}\] siendo \(P_{\alpha}\) la regla de clasificación que asigna a \(G_1\) si \(f_1(X)/f_2(X)>\alpha/(1-\alpha)\). La primera desigualdad anterior es inmediata y la segunda se debe a que \(P_{\alpha}\) es la regla que hace mínima la probabilidad total de clasificación incorrecta bajo la distribución a priori: \(\pi_2=\alpha\), \(\pi_1=1-\alpha\).

Tomemos \(c=\frac{\alpha_0}{1-\alpha_0}\) (o equivalentemente, \(\alpha_0\)) de modo que \(P_{\alpha_0}(2/1)=P_{\alpha_0}(1/2)\). Entonces

\[\begin{aligned} \max\{P(2/1),P(1/2)\} & \geq (1-\alpha_0)P_{\alpha_0}(2/1)+\alpha_0 P_{\alpha_0}(1/2) =(1-\alpha_0+\alpha_0) P_{\alpha_0}(2/1) \\ &=P_{\alpha_0}(2/1)=\max\{P_{\alpha_0}(2/1),P_{\alpha_0}(1/2)\}\end{aligned}\] lo cual demuestra que \(P_{\alpha_0}\) es la regla minimax.

En consecuencia, la regla minimax será la que clasifica en el grupo \(G_1\) si \(f_1(\bm{x})/f_2(\bm{x})>c\), siendo \(c\) tal que \(P_c(2/1)=P_c(1/2)\).

Ejemplo. Si las dos distribuciones condicionadas a cada grupo son normales con la misma matriz de covarianzas, la regla de clasificación minimax asigna al grupo \(G_1\) si

\[D(\bm{x})>\log c\] siendo \(c\) tal que

\[\Phi\left(\frac{\log c -\Delta^2/2}{\Delta}\right) =1-\Phi\left(\frac{\log c +\Delta^2/2}{\Delta}\right)\] Esta ecuación tiene solución \(\log c=0\), o lo que es lo mismo, \(c=1\), lo cual coincide con el criterio de la razón de verosimilitudes.

Ejemplo. Una población se encuentra dividida en dos grupos \(G_1\) y \(G_2\). Se realiza una observación de una variable que tiene distribución exponencial, cuyo parámetro depende del grupo. Si procede del grupo \(G_1\) el parámetro es 1, y si procede del grupo \(G_2\) el parámetro es 2.

a. Supongamos una distribución a priori equiprobable sobre los dos grupos. Calcula la regla que minimiza la probabilidad de clasificación incorrecta. Cuál es ese valor mínimo de la probabilidad de clasificación incorrecta?

b. Calcula la regla de clasificación óptima con el criterio minimax.

Ejemplo. Consideremos una población dividida en dos grupos. A cada individuo de la población le podemos observar una variable aleatoria discreta que toma valores 1,2,3,4 y 5, con probabilidades respectivas \(0.05\), \(0.15\), \(0.5\), \(0.25\), \(0.05\) para el primer grupo y \(0.3\), \(0.1\), \(0.1\), \(0.1\), \(0.4\) para el segundo grupo.

a. Suponiendo una distribución a priori equiprobable entre los dos grupos, determina la regla discriminante que hace mínima la probabilidad total de clasificación incorrecta.

b. Determina la regla discriminante óptima con el criterio minimax.