\( \newcommand{\bm}[1]{\boldsymbol{#1}} \) \( \newcommand{\textnormal}[1]{\textrm{#1}} \)

6.3 Estimación de la regla discriminante

La situación más común en la práctica consiste en que desconocemos las distribuciones de \(\bm{x}\) condicionales a cada uno de los grupos. En su lugar disponemos de muestras procedentes de cada grupo,

\[\bm{x_{11}},\ldots,\bm{x_{1n_1}}\ \ \mbox{del grupo}\ G_1.\]

\[\bm{x_{21}},\ldots,\bm{x_{2n_2}}\ \ \mbox{del grupo}\ G_2.\] conocidas como muestras de entrenamiento, que nos sirven para estimar la regla discriminante, por lo general, a través de estimaciones de las distribuciones respectivas:

\[\hat{R}_1=\left\{\bm{x}:\frac{\hat{f}_1(\bm{x})}{\hat{f}_2(\bm{x})}>c\right\}.\]

Si se supone algún modelo paramétrico para las distribuciones, que podemos representar en la forma \(f_1(\bm{x})=f_1(\bm{x}/\theta_1)\) y \(f_2(\bm{x})=f_2(\bm{x}/\theta_2)\), los estimadores serían \(\hat{f}_1(\bm{x})=f_1(\bm{x}/\hat{\theta}_1)\) y \(\hat{f}_2(\bm{x})=f_2(\bm{x}/\hat{\theta}_2)\), donde \(\hat{\theta}_1\) y \(\hat{\theta}_2\) representan estimadores de los parámetros. En ausencia de modelo paramétrico, \(\hat{f}_1(\bm{x})\) y \(\hat{f}_2(\bm{x})\) serían algún tipo de estimador no paramétrico de la densidad.

La regla discriminante estimada, \(\hat{R}=(\hat{R}_1,\hat{R}_2)\), se aplicaría más adelante para clasificar a un nuevo individuo en uno u otro grupo, en base a su resultado en el vector \(\bm{x}\).

En la sección anterior vimos que la regla discriminante óptima era \(R=(R_1,R_2)\), donde las regiones de clasificación \(R_1\) y \(R_2\) dependían de las verdaderas funciones \(f_1\) y \(f_2\). Como \(f_1\) y \(f_2\) son desconocidas, hemos tenido que sustituirlas por estimaciones \(\hat{f}_1\) y \(\hat{f}_2\) obteniendo una regla que ya no será óptima. Nuestra esperanza reside en que sea parecida a la regla óptima.

6.3.1 Tasas de error en reglas estimadas

Nos interesa conocer cómo afecta la estimación de la regla discriminante a los errores de clasificación. Debemos distinguir entre:

Tasas de error óptimas

Son las probabilidades de error de la regla discriminante óptima. Las denotamos

\[e_{i,opt}=\int_{R_j}f_i(\bm{x})\,d\bm{x}\qquad i=1,2\ \ j\neq i.\]

\[e_{opt}=\pi_1 e_{1,opt}+\pi_2 e_{2,opt}.\]

Tasas de error efectivas

Son las probabilidades de error de la regla discriminante estimada.

\[e_{i,efe}=\int_{\hat{R}_j}f_i(\bm{x})\,d\bm{x}\qquad i=1,2\ \ j\neq i.\]

\[e_{efe}=\pi_1 e_{1,efe}+\pi_2 e_{2,efe}.\] Nótese que las regiones \((\hat{R}_1,\hat{R}_2)\) se obtienen de las muestras de entrenamiento. En la medida en que estas muestras son aleatorias, las regiones de clasificación serán aleatorias, y también lo serán las tasas de error efectivas. Por tanto, tiene sentido calcular su esperanza.

Esperanza de las tasas de error efectivas

No son más que la esperanza de las tasas de error anteriores, calculadas respecto de la distribución de probabilidad de las muestras de entrenamiento: \(E(e_{i,efe})\) y

\[E(e_{efe})=\pi_1 E(e_{1,efe})+\pi_2 E(e_{2,efe}).\]

Es inmediato que

\[e_{i,opt}\leq e_{i,efe}\qquad\mbox{y}\qquad e_{opt}\leq e_{efe}.\]

Las tasas de error óptimas se refieren a la situación ideal en la que las distribuciones de cada grupo son conocidas. Sin embargo, en el caso que nos ocupa, las que tienen mayor interés son las tasas de error efectivas, pues representan las probabilidades de error en las que se va a incurrir cuando se clasifique a un nuevo individuo mediante la regla estimada.

Por desgracia, las tasas de error efectivas son desconocidas ya que dependen de \(f_1\) y \(f_2\), que representan la distribución de la nueva observación. A continuación planteamos diversos estimadores de las tasas de error efectivas.

6.3.2 Estimación de las tasas de error efectivas

Estimadores plug-in

Se obtienen sustituyendo \(f_1\) y \(f_2\) por \(\hat{f}_1\) y \(\hat{f}_2\).

\[e_{i,pl}=\int_{\hat{R}_j}\hat{f}_i(\bm{x})\,d\bm{x}\qquad i=1,2\ \ j\neq i.\]

Tasas de error aparentes

Si a cada individuo de la muestra de entrenamiento le aplicamos la regla discriminante estimada tendremos algunos individuos bien clasificados y otros mal clasificados. Pues bien, las tasas de error aparentes son las frecuencias relativas de observaciones mal clasificadas.

\[e_{i,apa}=\frac{m_i}{n_i}\qquad i=1,2\] siendo \(m_i\) el número de individuos de la muestra de entrenamiento procedente del grupo \(G_i\) que son mal clasificados por la regla estimada. Las tasas de error aparentes tienden a infraestimar las tasas de error efectivas ya que estamos aplicando la regla estimada a los mismos datos con los que ha sido construida. El mismo fenómeno ocurre con los estimadores plug-in, ya que entre la regla estimada y \(\hat{f}_i\) hay una relación de optimalidad que no se cumple con las tasas de error efectivas. Por este motivo, se proponen correcciones de las tasas de error aparentes.

Corrección por validación cruzada

Consiste en construir la regla discriminante con todas las observaciones menos una, y aplicar después esa regla para clasificar al individuo omitido. Las tasas de error se calcularían después como las frecuencias relativas de individuos mal clasificados.

Corrección mediante bootstrap

Se trata de una corrección del sesgo de las tasas de error aparentes. Siguiendo las ideas del bootstrap, extraemos muestras artificiales de la forma:

\[\bm{x_{11}}^*,\ldots,\bm{x_{1n_1}}^*\ \ \mbox{i.i.d. de la distribución equiprobable sobre} \ \ \bm{x_{11}},\ldots,\bm{x_{1n_1}}.\]

\[\bm{x_{21}}^*,\ldots,\bm{x_{2n_2}}^*\ \ \mbox{i.i.d. de la distribución equiprobable sobre} \ \ \bm{x_{21}},\ldots,\bm{x_{2n_2}}.\]

Sobre las muestras artificiales aplicamos los mismos procedimientos de estimación de la regla discriminante y cálculo de las tasas de error aparentes, \(m_1^*/n_1\) y \(m_2^*/n_2\), siendo \(m_i^*\) el número de individuos de la muestra bootstrap, del grupo \(G_i\), que han sido mal clasificados por la regla estimada bootstrap. Denotemos \(m_i^{orig}\) al número de individuos de la muestra original que son mal clasificados por la regla bootstrap. La estimación bootstrap del sesgo sería: \[E^*\left(\frac{m_i^*}{n_i}-\frac{m_i^{orig}}{n_i}\right)\] donde \(E^*\) denota la esperanza respecto del muestreo bootstrap, que en la práctica se puede aproximar mediante la media obtenida tras extraer muchas muestras bootstrap.

La corrección bootstrap del sesgo daría lugar a las tasas de error siguientes: \[\frac{m_i}{n_i}-E^*\left(\frac{m_i^*}{n_i}-\frac{m_i^{orig}}{n_i}\right)\]

A partir de cualquiera de las tasas de error anteriores, también se puede estimar la probabilidad total de clasificación incorrecta. Para ello, podemos suponer que las probabilidades a priori \(\pi_1\) y \(\pi_2\) son conocidas, o en otro caso se pueden estimar mediante las proporciones \(n_1/(n_1+n_2)\) y \(n_2/(n_1+n_2)\), suponiendo que las dos muestras han sido extraídas al azar de la población formada al juntar los dos grupos.

Ejemplo. Supongamos dos muestras de entrenamiento

\[\bm{x_{11}},\ldots,\bm{x_{1n_1}}\in N_d(\bm{\mu_1},\bm\Sigma) \ \mbox{del grupo}\ G_1.\]

\[\bm{x_{21}},\ldots,\bm{x_{2n_2}}\in N_d(\bm{\mu_2},\bm\Sigma) \ \mbox{del grupo}\ G_2.\] Estamos ante dos distribuciones normales con la misma matriz de covarianzas, por lo que, según hemos visto en la sección anterior, la regla de clasificación óptima asignaría a un nuevo individuo al grupo \(G_1\) si

\[D(\bm{x})=\bm\lambda^{\prime}\left[\bm{x}-\frac{1}{2}(\bm{\mu_1}+\bm{\mu_2})\right]>\log c\] siendo \(\bm\lambda=\bm\Sigma^{-1} (\bm{\mu_1}-\bm{\mu_2})\).

Como \(\bm{\mu_1}\), \(\bm{\mu_2}\) y \(\bm\Sigma\) son desconocidos, los sustituimos por sus estimaciones en base a las muestras de entrenamiento \(\overline{\bm{x_1}}=n_1^{-1}\sum_{i=1}^{n_1} \bm{x_{1i}}\), \(\overline{\bm{x_2}}=n_2^{-1}\sum_{i=1}^{n_2} \bm{x_{2i}}\) y

\[\bm{S_c}=\frac{(n_1-1)\bm{S_{c1}}+(n_2-1)\bm{S_{c2}}}{n_1+n_2-2}\] siendo \(\bm{S_{c1}}=(n_1-1)^{-1}\sum_{i=1}^{n_1} (\bm{x_{1i}}-\overline{\bm{x_1}})(\bm{x_{1i}}-\overline{\bm{x_1}})^\prime{}\), y análogamente \(\bm{S_{c2}}\).

La regla estimada resulta

\[\hat{D}(\bm{x})=\hat{\bm\lambda}^{\prime}\left[\bm{x}-\frac{1}{2}(\overline{\bm{x_1}}+\overline{\bm{x_2}})\right]>\log c\] siendo \(\hat{\bm\lambda}=\bm{S_c}^{-1} (\overline{\bm{x_1}}-\overline{\bm{x_2}})\).

Las tasas de error efectivas serían

\[e_{1,efe}=\Phi\left(\frac{\log c - \hat{D}(\bm{\mu_1})}{\sqrt{\hat{\bm\lambda}^\prime{}\bm\Sigma\hat{\bm\lambda}}} \right)\qquad\mbox{y}\qquad e_{2,efe}= \Phi\left(\frac{-\log c + \hat{D}(\bm{\mu_2})}{\sqrt{\hat{\bm\lambda}^\prime{}\bm\Sigma\hat{\bm\lambda}}} \right).\]

Sustituyendo en las expresiones anteriores \(\bm{\mu_1}\), \(\bm{\mu_2}\) y \(\bm\Sigma\) por sus estimaciones, obtenemos las estimaciones plug-in de las tasas de error

\[e_{1,pl}=\Phi\left( \frac{\log c - \hat{\Delta}^2/2}{\hat{\Delta}} \right) \qquad\mbox{y}\qquad e_{2,pl}=\Phi\left( \frac{-\log c - \hat{\Delta}^2/2}{\hat{\Delta}} \right)\] donde \(\hat{\Delta}^2=\left(\overline{\bm{x_1}}-\overline{\bm{x_2}}\right)^\prime{} \bm{S_c}^{-1} \left(\overline{\bm{x_1}}-\overline{\bm{x_2}}\right)\) es el cuadrado de la distancia de Mahalanobis en términos muestrales. Como ocurre en general, los estimadores \(e_{i,pl}\) no son buenos estimadores de \(e_{i,efe}\). Para corregirlos se ha propuesto utilizar \(\tilde{\Delta}\) en lugar de \(\hat{\Delta}\) en la expresión de \(e_{i,pl}\), siendo \[\tilde{\Delta}^2=\frac{n_1+n_2-d-3}{n_1+n_2-2} \hat{\Delta}^2.\]

Por supuesto, también se pueden llevar a cabo las estimaciones mediante las tasas de error aparentes, así como sus correcciones por validación cruzada o por bootstrap.