Una introducción suave al clasificador óptimo de Bayes

Tweet Share Share

última actualización el 19 de agosto de 2020

El clasificador óptimo de Bayes es un modelo probabilístico que hace la predicción más probable para un nuevo ejemplo.

se describe usando el Teorema de Bayes que proporciona una forma de principio para calcular una probabilidad condicional. También está estrechamente relacionado con el máximo a Posteriori: un marco probabilístico denominado mapa que encuentra la hipótesis más probable para un conjunto de datos de entrenamiento.,

en la práctica, el clasificador óptimo de Bayes es computacionalmente caro, Si no intratable de calcular, y en su lugar, simplificaciones como el algoritmo de Gibbs y Bayes ingenuo se pueden utilizar para aproximar el resultado.

en este post, descubrirás Bayes Optimal Classifier para hacer las predicciones más precisas para nuevas instancias de datos.

Después de leer este post, sabrás:

El teorema de Bayes proporciona una forma de principio para calcular probabilidades condicionales, llamada probabilidad posterior.,
Maximum a Posteriori es un marco probabilístico que encuentra la hipótesis más probable que describe el conjunto de datos de entrenamiento.
Bayes Optimal Classifier es un modelo probabilístico que encuentra la predicción más probable utilizando los datos de entrenamiento y el espacio de hipótesis para hacer una predicción para una nueva instancia de datos.

inicia tu proyecto con My new book Probability for Machine Learning, que incluye tutoriales paso a paso y los archivos de código fuente de Python para todos los ejemplos.

comencemos.,

Una introducción suave al clasificador óptimo Bayes
foto de Nate Loper, algunos derechos reservados.

Overview

Este tutorial se divide en tres partes; son:

Teorema de Bayes
Maximum a Posteriori (MAP)
Bayes Optimal Classifier

Teorema de Bayes

recuerde que el teorema de Bayes proporciona una forma de principio para calcular una probabilidad condicional.,

consiste en calcular la probabilidad condicional de un resultado dado otro resultado, utilizando la inversa de esta relación, expresada de la siguiente manera:

P(A | B) = (P(B | A) * P(A)) / P(B)

la cantidad que estamos calculando se conoce típicamente como la probabilidad posterior de un B dado y P(A) se conoce como la probabilidad previa de A.

la constante de normalización de P(B) se puede quitar, y el posterior se puede demostrar que es proporcional a la probabilidad de B dado a multiplicado por el anterior.,

P(A | B) es proporcional a P(B | A) * P(a)

O, simplemente:

P(A | B) = P(B | A) * P(a)

Esto es una útil simplificación, ya que no estamos interesados en estimar la probabilidad, pero en lugar de en la optimización de una cantidad. Una cantidad proporcional es suficiente para este propósito.

para obtener más información sobre el tema del teorema de Bayes, consulte la publicación:

Una introducción suave al teorema de Bayes para el aprendizaje automático

ahora que estamos al día con el Teorema de Bayes, echemos un vistazo al marco máximo a Posteriori.,

Maximum a Posteriori (MAP)

El aprendizaje automático implica encontrar un modelo (hipótesis) que mejor explique los datos de entrenamiento.

Hay dos marcos probabilísticos que subyacen a muchos algoritmos de aprendizaje automático diferentes.

son:

Maximum a Posteriori (MAP), un método Bayesiano.
estimación de máxima verosimilitud (MLE), un método frecuentista.

el objetivo de ambos frameworks en el contexto del aprendizaje automático es localizar la hipótesis que es más probable dado el conjunto de datos de entrenamiento.,

específicamente, responden a la pregunta:

¿Cuál es la hipótesis más probable dados los datos de entrenamiento?

ambos enfoques enmarcan el problema de ajustar un modelo como optimización e implican la búsqueda de una distribución y un conjunto de parámetros para la distribución que mejor describe los datos observados.

MLE es un enfoque frecuentista, y MAP proporciona una alternativa Bayesiana.,

un reemplazo popular para maximizar la probabilidad es maximizar la densidad de probabilidad posterior Bayesiana de los parámetros en su lugar.

– Page 306, Information Theory, Inference and Learning Algorithms, 2003.,

dada la simplificación del teorema de Bayes a una cantidad proporcional, podemos usarlo para estimar la hipótesis y parámetros proporcionales (theta) que explican nuestro conjunto de datos (X), declarado como:

p(theta | X) = P(X | theta) * P(theta)

maximizar esta cantidad sobre un rango de theta resuelve un problema de optimización para estimar la tendencia central de la probabilidad posterior (por ejemplo, el modelo de la distribución).,

como tal, esta técnica se conoce como» estimación máxima a posteriori», o estimación de mapa para abreviar, y a veces simplemente «estimación máxima posterior».»

maximize P(X/theta) * P(theta)

para obtener más información sobre el tema de Maximum a Posteriori, consulte la publicación:

Una introducción suave a Maximum a Posteriori (MAP) para aprendizaje automático

ahora que estamos familiarizados con el marco de MAP, podemos echar un vistazo más de cerca al concepto relacionado del clasificador óptimo de Bayes.,

Bayes Optimal Classifier

El Bayes optimal classifier es un modelo probabilístico que hace la predicción más probable para un nuevo ejemplo, dado el conjunto de datos de entrenamiento.

Este modelo también se conoce como Bayes optimal learner, Bayes classifier, Bayes optimal decision boundary o Bayes optimal discriminant function.

clasificador Bayes: modelo probabilístico que hace la predicción más probable para nuevos ejemplos.,

específicamente, el clasificador óptimo de Bayes responde a la pregunta:

¿Cuál es la clasificación más probable de la nueva instancia teniendo en cuenta los datos de entrenamiento?

esto es diferente del marco MAP que busca la hipótesis más probable (modelo). En cambio, estamos interesados en hacer una predicción específica.

en general, la clasificación más probable de la nueva instancia se obtiene combinando las predicciones de todas las hipótesis, ponderadas por sus probabilidades posteriores.,

— página 175, aprendizaje automático, 1997.

la siguiente ecuación muestra cómo calcular la probabilidad condicional para una nueva instancia (vi) dados los datos de entrenamiento (D), dado un espacio de hipótesis (H).

p (vj / D) = sum {H in H} P(VJ | hi) * P(hi | D)

donde vj es una nueva instancia a ser clasificada, H es el conjunto de hipótesis para clasificar la instancia, hi es una hipótesis dada, P(vj | hi) Es la probabilidad posterior para vi dada la hipótesis hi, y P(hi | D) es la probabilidad posterior de la hipótesis hi dados los datos D.,

seleccionar el resultado con la máxima probabilidad es un ejemplo de una clasificación óptima de Bayes.

max sum {H in H} P(VJ | hi) * P(hi | D)

cualquier modelo que clasifique ejemplos usando esta ecuación es un clasificador óptimo de Bayes y ningún otro modelo puede superar esta técnica, en promedio.

cualquier sistema que clasifique nuevas instancias de acuerdo con se denomina clasificador óptimo de Bayes o alumno óptimo de Bayes. Ningún otro método de clasificación que utilice el mismo espacio de hipótesis y el mismo conocimiento previo puede superar a este método en promedio.,

— página 175, aprendizaje automático, 1997.

tenemos que dejar que eso se hunda.

es un gran problema.

significa que cualquier otro algoritmo que opera en los mismos datos, el mismo conjunto de hipótesis, y las mismas probabilidades previas no pueden superar este enfoque, en promedio. De ahí el nombre » clasificador óptimo.»

aunque el clasificador hace predicciones óptimas, no es perfecto dada la incertidumbre en los datos de entrenamiento y la cobertura incompleta del dominio del problema y el espacio de hipótesis. Como tal, el modelo cometerá errores., Estos errores a menudo se conocen como errores Bayes.

El clasificador Bayes produce la tasa de error de prueba más baja posible, llamada tasa de error Bayes. La tasa de error de Bayes es análoga al error irreducible

— página 38, Una Introducción al aprendizaje estadístico con aplicaciones en R, 2017.

debido a que el clasificador de Bayes es óptimo, el error de Bayes es el error mínimo posible que se puede hacer.

error Bayes: el error mínimo posible que se puede hacer al hacer predicciones.,

Además, el modelo se describe a menudo en términos de clasificación, por ejemplo, el clasificador Bayes. Sin embargo, el principio se aplica igual de bien a la regresión: es decir, problemas de modelado predictivo donde se predice un valor numérico en lugar de una etiqueta de clase.

es un modelo teórico, pero se sostiene como un ideal que podemos desear perseguir.

en teoría siempre nos gustaría predecir respuestas cualitativas utilizando el clasificador Bayes., Pero para los datos reales, no sabemos la distribución condicional de y dado X, por lo que calcular el clasificador de Bayes es imposible. Por lo tanto, el clasificador Bayes sirve como un estándar de oro inalcanzable contra el cual comparar otros métodos.

– página 39, Una Introducción al aprendizaje estadístico con aplicaciones en R, 2017.

debido al costo computacional de esta estrategia óptima, podemos trabajar con simplificaciones directas del enfoque.,

dos de las simplificaciones más utilizadas utilizan un algoritmo de muestreo para hipótesis, como el muestreo de Gibbs, o para utilizar las suposiciones simplificadoras del clasificador Bayes ingenuo.

algoritmo de Gibbs. Hipótesis de muestra aleatoria sesgada en su probabilidad posterior.
Naive Bayes. Supongamos que las variables en los datos de entrada son condicionalmente independientes.,

para más información sobre el tema de los Bayes ingenuos, vea el post:

Cómo desarrollar un clasificador Bayes ingenuo desde cero en Python

Sin embargo, muchos algoritmos de aprendizaje automático no lineales son capaces de hacer predicciones que son aproximaciones cercanas del clasificador Bayes en la práctica.

a pesar de que es un enfoque muy simple, KNN a menudo puede producir clasificadores que están sorprendentemente cerca del clasificador óptimo de Bayes.,

– página 39, Una Introducción al aprendizaje estadístico con aplicaciones en R, 2017.

más información

esta sección proporciona más recursos sobre el tema si desea profundizar.

Posts

Una introducción suave a Maximum a Posteriori (MAP) para Machine Learning
Una introducción suave al teorema de Bayes para Machine Learning
Cómo desarrollar un clasificador Bayes ingenuo desde cero en Python

Books

Section 6.7 Bayes Optimal Classifier, Machine Learning, 1997.
Sección 2.4.,2 Bayes error and noise, Fundamentos del aprendizaje automático, 2a edición, 2018.
sección 2.2.3 el ajuste de clasificación, Una Introducción al aprendizaje estadístico con aplicaciones en R, 2017.
Teoría de la información, inferencia y algoritmos de aprendizaje, 2003.

Papers

El perceptrón multicapa como aproximación a una función discriminante óptima de Bayes, 1990.
Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains, 2010.
Restricted Bayes optimal classifiers, 2000.
clasificador Bayes y error Bayes, 2013.,

resumen

en este post, descubriste el clasificador óptimo de Bayes para hacer las predicciones más precisas para nuevas instancias de datos.

Específicamente, aprendiste:

El teorema de Bayes proporciona una forma de principio para calcular probabilidades condicionales, llamada probabilidad posterior.
Maximum a Posteriori es un marco probabilístico que encuentra la hipótesis más probable que describe el conjunto de datos de entrenamiento.,
Bayes Optimal Classifier es un marco probabilístico que encuentra la predicción más probable utilizando los datos de entrenamiento y el espacio de hipótesis para hacer una predicción para una nueva instancia de datos.

¿tiene alguna pregunta?Haga sus preguntas en los comentarios a continuación y haré mi mejor esfuerzo para responder.

Conseguir una Manija en la Probabilidad para el Aprendizaje de Máquina!

desarrolle su comprensión de la probabilidad

…,con solo unas pocas líneas de código python

descubre cómo en mi nuevo Ebook:
probabilidad para aprendizaje automático

proporciona tutoriales de autoaprendizaje y proyectos de extremo a extremo sobre:
Teorema de Bayes, optimización Bayesiana, distribuciones, máxima verosimilitud, entropía cruzada, modelos de calibración
y mucho más…

finalmente aprovecha la incertidumbre en tus proyectos

Sáltate lo académico. Sólo Resultados.Ver Lo que está Dentro de

Tweet Compartir Compartir

El Festival