Une introduction en douceur au classificateur optimal Bayes

Tweet Share Share

dernière mise à jour le 19 août 2020

Le classificateur optimal Bayes est un modèle probabiliste qui fait la prédiction la plus probable pour un nouvel exemple.

Il est décrit en utilisant le théorème de Bayes qui fournit un moyen de principe pour calculer une probabilité conditionnelle. Il est également étroitement lié au Maximum a Posteriori: un cadre probabiliste appelé MAP qui trouve l’hypothèse la plus probable pour un ensemble de données d’entraînement.,

en pratique, le classificateur optimal de Bayes est coûteux en calcul, sinon intraitable à calculer, et à la place, des simplifications telles que L’algorithme de Gibbs et Bayes naïf peuvent être utilisées pour approximer le résultat.

dans cet article, vous découvrirez Bayes Optimal classificateur pour faire les prédictions les plus précises pour les nouvelles instances de données.

Après avoir lu ce post, vous saurez:

  • Le théorème de Bayes fournit un moyen de principe pour calculer les probabilités conditionnelles, appelé probabilité postérieure.,
  • Maximum a Posteriori est un cadre probabiliste qui trouve l’hypothèse la plus probable qui décrit l’ensemble de données d’entraînement.
  • Bayes Optimal classificateur est un modèle probabiliste qui trouve la prédiction la plus probable en utilisant les données d’apprentissage et l’espace des hypothèses pour faire une prédiction pour une nouvelle instance de données.

lancez votre projet avec mon nouveau livre Probability for Machine Learning, y compris des tutoriels étape par étape et les fichiers de code source Python pour tous les exemples.

nous allons commencer.,

Une Introduction douce au classificateur optimal Bayes
Photo de Nate Loper, certains droits sont réservés.

Présentation

Ce tutoriel est divisé en trois parties; ils sont:

  1. Théorème de Bayes
  2. Maximum a Posteriori (MAP)
  3. Bayes Optimale Classificateur

Théorème de Bayes

Rappelons que le théorème de Bayes fournit un moyen de principes de calcul d’une probabilité conditionnelle.,

Il s’agit de calculer la probabilité conditionnelle d’un résultat donné à un autre résultat, en utilisant l’inverse de cette relation, énoncé comme suit:

  • P(A | B) = (P(B | A) * P(A)) / P(B)

la quantité que nous calculons est généralement appelée probabilité postérieure d’un B donné et P(A) est appelée probabilité antérieure de A.

la constante de normalisation de P(B) peut être enlevé, et le postérieur peut être montré comme étant proportionnel à la probabilité de B Étant donné a multiplié par le précédent.,

  • P(A | B) est proportionnelle à P(B | A) * P(A)

Ou, tout simplement:

  • P(A | B) = P(B | A) * P(A)

C’est une solution de simplification que nous ne sommes pas intéressés à l’estimation d’une probabilité, mais plutôt dans l’optimisation de la quantité. Une quantité proportionnelle est suffisante à cet effet.

pour en savoir plus sur le théorème de Bayes, voir le post:

  • Une Introduction douce au théorème de Bayes pour L’apprentissage automatique

maintenant que nous sommes au courant du théorème de Bayes, jetons également un coup d’œil au cadre Maximum a Posteriori.,

Maximum a Posteriori (MAP)

L’apprentissage automatique consiste à trouver un modèle (hypothèse) qui explique le mieux les données d’apprentissage.

Il existe deux cadres probabilistes qui sous-tendent de nombreux algorithmes d’apprentissage automatique différents.

ils sont:

  • maximum a Posteriori (MAP), une méthode Bayésienne.
  • Estimation du maximum de vraisemblance (MLE), une méthode fréquentiste.

L’objectif de ces deux cadres dans le contexte de l’apprentissage de la machine est de localiser l’hypothèse la plus probable compte tenu de l’ensemble de données d’apprentissage.,

plus précisément, ils répondent à la question:

Quelle est l’hypothèse la plus probable compte tenu des données d’entraînement?

Les deux approches encadrent le problème de l’ajustement d’un modèle en tant qu’optimisation et impliquent la recherche d’une distribution et d’un ensemble de paramètres pour la distribution qui décrit le mieux les données observées.

MLE est une approche fréquentiste, et MAP fournit une alternative Bayésienne.,

un remplacement populaire pour maximiser la probabilité est de maximiser la densité de probabilité Bayésienne postérieure des paramètres à la place.

— Page 306, théorie de l’Information, inférence et algorithmes D’apprentissage, 2003.,

compte tenu de la simplification du théorème de Bayes à une grandeur proportionnelle, nous pouvons l’utiliser pour estimer l’hypothèse proportionnelle et les paramètres (thêta) qui expliquent notre ensemble de données (X), énoncés comme suit:

  • P(thêta | X) = P(X/thêta) * p(thêta)

maximiser cette grandeur sur une plage de thêta résout un problème d’optimisation pour estimer la tendance centrale de la probabilité postérieure (par exemple le modèle de la distribution).,

en tant que telle, cette technique est appelée « estimation maximale a posteriori”, ou estimation cartographique pour faire court, et parfois simplement « estimation maximale postérieure. »

  • maximize P(X/theta) * P(theta)

pour en savoir plus sur le sujet du maximum a Posteriori, voir le post:

  • Une Introduction douce au maximum a Posteriori (MAP) pour L’apprentissage automatique

maintenant que nous sommes familiers avec le cadre MAP, nous pouvons examiner de plus près le concept connexe du Classificateur optimal Bayes.,

Classificateur optimal Bayes

Le classificateur optimal Bayes est un modèle probabiliste qui fait la prédiction la plus probable pour un nouvel exemple, compte tenu de l’ensemble de données de formation.

Ce modèle est également appelé L’apprenant optimal de Bayes, le classificateur de Bayes, la limite de décision optimale de Bayes ou la fonction discriminante optimale de Bayes.

  • Classificateur Bayes: modèle probabiliste qui fait la prédiction la plus probable pour de nouveaux exemples.,

plus précisément, le classificateur Bayes optimal répond à la question:

Quelle est la classification la plus probable de la nouvelle instance compte tenu des données d’entraînement?

ceci est différent du cadre MAP qui recherche l’hypothèse la plus probable (modèle). Au lieu de cela, nous sommes intéressés à faire une prédiction spécifique.

en général, la classification la plus probable de la nouvelle instance est obtenue en combinant les prédictions de toutes les hypothèses, pondérées par leurs probabilités postérieures.,

— la Page 175, l’Apprentissage Machine, 1997.

l’équation ci-dessous montre comment calculer la probabilité conditionnelle pour une nouvelle instance (vi) étant donné les données d’apprentissage (D), Étant donné un espace d’hypothèses (H).

  • P(vj | J) = sum {h dans H} P(vj | hi) * P(hi | D)

Où vj est une nouvelle instance d’être classés, H est l’ensemble des hypothèses pour le classement de l’instance, hi est une hypothèse, P(vj | hi) est la probabilité a posteriori pour la vi hypothèse salut, et P(hi | D) est la probabilité a posteriori de l’hypothèse hi compte tenu des données D.,

sélectionner le résultat avec la probabilité maximale est un exemple de classification optimale de Bayes.

  • max sum {h in H} P(vj | hi) * P(hi/D)

tout modèle qui classe des exemples en utilisant cette équation est un classificateur optimal de Bayes et aucun autre modèle ne peut surpasser cette technique, en moyenne.

tout système qui classe de nouvelles instances Selon est appelé un classificateur Bayes optimal, ou Bayes optimal learner. Aucune autre méthode de classification utilisant le même espace d’hypothèses et les mêmes connaissances préalables ne peut surpasser cette méthode en moyenne.,

— Page 175, apprentissage automatique, 1997.

nous devons laisser cela couler.

C’est une grosse affaire.

cela signifie que tout autre algorithme qui fonctionne sur les mêmes données, le même ensemble d’hypothèses et les mêmes probabilités antérieures ne peut pas surpasser cette approche, en moyenne. D’où le nom « Classificateur optimal. »

bien que le classificateur fasse des prédictions optimales, il n’est pas parfait compte tenu de l’incertitude dans les données d’entraînement et de la couverture incomplète du domaine du problème et de l’espace des hypothèses. En tant que tel, le modèle fera des erreurs., Ces erreurs sont souvent appelées erreurs Bayes.

Le classificateur Bayes produit le taux d’erreur de test le plus bas possible, appelé taux D’erreur Bayes. Le taux D’erreur de Bayes est analogue à l’erreur irréductible …

— Page 38, An Introduction to Statistical Learning with Applications in R, 2017.

étant donné que le classificateur Bayes est optimal, L’erreur Bayes est l’erreur minimale possible qui peut être faite.

  • erreur Bayes: l’erreur minimale possible qui peut être faite lors des prédictions.,

de plus, le modèle est souvent décrit en termes de classification, par exemple le classificateur Bayes. Néanmoins, le principe s’applique tout aussi bien à la régression: c’est-à-dire aux problèmes de modélisation prédictive où une valeur numérique est prédite au lieu d’une étiquette de classe.

C’est un modèle théorique, mais il est considéré comme un idéal que l’on peut souhaiter poursuivre.

en théorie, nous aimerions toujours prédire les réponses qualitatives en utilisant le classificateur Bayes., Mais pour les données réelles, nous ne connaissons pas la distribution conditionnelle de Y étant donné X, et le calcul du Classificateur Bayes est donc impossible. Par conséquent, le classificateur Bayes sert d’étalon-or inaccessible pour comparer d’autres méthodes.

— Page 39, une Introduction à L’apprentissage statistique avec des Applications dans R, 2017.

en raison du coût de calcul de cette stratégie optimale, nous pouvons plutôt travailler avec des simplifications directes de l’approche.,

deux des simplifications les plus couramment utilisées utilisent un algorithme d’échantillonnage pour des hypothèses, telles que L’échantillonnage de Gibbs, ou pour utiliser les hypothèses simplificatrices du Classificateur naïf de Bayes.

  • l’Algorithme de Gibbs. Échantillonner aléatoirement des hypothèses biaisées sur leur probabilité postérieure.
  • naïf Bayes. Supposons que les variables dans les données d’entrée sont conditionnellement indépendants.,

pour en savoir plus sur le sujet des Bayes naïfs, voir le post:

  • Comment développer un classificateur Bayes naïf à partir de zéro en Python

néanmoins, de nombreux algorithmes d’apprentissage automatique non linéaires sont capables de faire des prédictions qui sont des approximations proches du Classificateur Bayes dans la pratique.

malgré le fait qu’il s’agisse d’une approche très simple, KNN peut souvent produire des classificateurs étonnamment proches du Classificateur Bayes optimal.,

— Page 39, une Introduction à L’apprentissage statistique avec des Applications dans R, 2017.

Lecture

Cette section fournit plus de ressources sur le sujet si vous cherchez à aller plus loin.

Posts

  • Une Introduction en Douceur de Maximum a Posteriori (MAP) pour l’Apprentissage de la Machine
  • Une Douce Introduction au Théorème de Bayes pour l’Apprentissage de la Machine
  • Comment Développer un Classificateur de Bayes Naïf à partir de Zéro en Python

Livres

  • la Section 6.7 de Bayes Optimale Classificateur, l’Apprentissage Machine, 1997.
  • la Section 2.4.,2 de Bayes, l’erreur et le bruit, les Fondements de l’Apprentissage Machine, 2e édition, 2018.
  • Section 2.2.3 le cadre de Classification, une Introduction à l’apprentissage statistique avec des Applications dans R, 2017.
  • théorie de l’Information, inférence et algorithmes D’apprentissage, 2003.

papiers

  • Le Perceptron multicouche comme Approximation D’une fonction discriminante optimale de Bayes, 1990.
  • Bayes Optimale Multilabel Classification par Classifieur Probabiliste des Chaînes, 2010.
  • classificateurs optimaux restreints de bayes, 2000.
  • Classificateur Bayes et erreur Bayes, 2013.,

résumé

dans cet article, vous avez découvert le classificateur Bayes Optimal pour faire les prédictions les plus précises pour les nouvelles instances de données.

plus précisément, vous avez appris:

  • Le théorème de Bayes fournit un moyen de principe pour calculer les probabilités conditionnelles, appelé probabilité postérieure.
  • Maximum a Posteriori est un cadre probabiliste qui trouve l’hypothèse la plus probable qui décrit l’ensemble de données d’entraînement.,
  • Bayes Optimal classificateur est un cadre probabiliste qui trouve la prédiction la plus probable en utilisant les données d’apprentissage et l’espace des hypothèses pour faire une prédiction pour une nouvelle instance de données.

avez-vous des questions?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.

Obtenir une Poignée sur la Probabilité pour l’Apprentissage de la Machine!

Développer Votre Compréhension de la Probabilité

…,avec seulement quelques lignes de code python

Découvrez comment dans mon nouvel Ebook:
probabilité pour L’apprentissage automatique

Il fournit des tutoriels d’auto-étude et des projets de bout en bout sur:
théorème de Bayes, optimisation Bayésienne, Distributions, maximum de vraisemblance, entropie croisée, calibrage des modèles
et bien plus encore…

enfin exploiter L’incertitude dans vos projets

sauter les universitaires. Seulement Les Résultats.Voir Ce qui est à l’Intérieur de

Tweet partager Partager

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *