Una leggera introduzione al classificatore ottimale di Bayes

Tweet Condividi Condividi

Ultimo aggiornamento il 19 agosto 2020

Il classificatore ottimale di Bayes è un modello probabilistico che rende la previsione più probabile per un nuovo esempio.

È descritto usando il teorema di Bayes che fornisce un modo di principio per calcolare una probabilità condizionale. È anche strettamente correlato al Massimo a posteriori: un framework probabilistico denominato MAP che trova l’ipotesi più probabile per un set di dati di allenamento.,

In pratica, il classificatore ottimale di Bayes è computazionalmente costoso, se non intrattabile da calcolare, e invece, semplificazioni come l’algoritmo di Gibbs e Naive Bayes possono essere utilizzate per approssimare il risultato.

In questo post, scoprirai Bayes Optimal Classifier per fare le previsioni più accurate per nuove istanze di dati.

Dopo aver letto questo post, saprai:

Il teorema di Bayes fornisce un modo di principio per calcolare le probabilità condizionali, chiamato probabilità posteriore.,
Maximum a posteriori è un framework probabilistico che trova l’ipotesi più probabile che descrive il set di dati di allenamento.
Bayes Optimal Classifier è un modello probabilistico che trova la previsione più probabile utilizzando i dati di allenamento e lo spazio delle ipotesi per fare una previsione per una nuova istanza di dati.

Avvia il tuo progetto con il mio nuovo libro Probability for Machine Learning, inclusi tutorial passo-passo e i file di codice sorgente Python per tutti gli esempi.

Iniziamo.,

Una dolce introduzione al classificatore ottimale di Bayes
Foto di Nate Loper, alcuni diritti riservati.

Panoramica

Questo tutorial è diviso in tre parti; sono:

Teorema di Bayes
Massimo a posteriori (MAPPA)
Classificatore ottimale di Bayes

Teorema di Bayes

Ricordiamo che il teorema di Bayes fornisce un modo di principio per calcolare una probabilità condizionata.,

Si comporta il calcolo della probabilità di un esito dato un altro risultato, utilizzando l’inverso di questo rapporto, ha dichiarato quanto segue:

P(A | B) = P(B | A) * P(A)) / P(B)

La quantità che siamo il calcolo è generalmente indicato come il posteriore probabilità di A dato B e P(A) è definito come la probabilità precedente di A.

La costante di normalizzazione di P(B) può essere rimosso, e la parte posteriore può essere dimostrato di essere proporzionale alla probabilità di B dato Una moltiplicato per la prima.,

P(A | B) è proporzionale a P(B | A) * P(A)

O, semplicemente:

P(A | B) = P(B | A) * P(A)

Questa è una utile semplificazione, in quanto non siamo interessati a stimare una probabilità, ma invece per l’ottimizzazione di una quantità. Una quantità proporzionale è abbastanza buona per questo scopo.

Per ulteriori informazioni sul tema del teorema di Bayes, vedi il post:

Una delicata introduzione al teorema di Bayes per l’apprendimento automatico

Ora che siamo aggiornati sul Teorema di Bayes, diamo anche un’occhiata al quadro Massimo a Posteriori.,

Massimo a posteriori (MAPPA)

L’apprendimento automatico comporta la ricerca di un modello (ipotesi) che spieghi al meglio i dati di allenamento.

Esistono due framework probabilistici che sono alla base di molti diversi algoritmi di apprendimento automatico.

Sono:

Massimo a Posteriori (MAPPA), un metodo bayesiano.
Stima di massima verosimiglianza (MLE), un metodo frequentista.

L’obiettivo di entrambi questi framework nel contesto dell’apprendimento automatico è individuare l’ipotesi più probabile dato il set di dati di formazione.,

In particolare, rispondono alla domanda:

Qual è l’ipotesi più probabile dati i dati di allenamento?

Entrambi gli approcci inquadrano il problema di adattare un modello come ottimizzazione e implicano la ricerca di una distribuzione e di un insieme di parametri per la distribuzione che meglio descrive i dati osservati.

MLE è un approccio frequentista e MAP fornisce un’alternativa bayesiana.,

Una sostituzione popolare per massimizzare la probabilità sta massimizzando la densità di probabilità posteriore bayesiana dei parametri.

— Pagina 306, Teoria dell’informazione, inferenza e algoritmi di apprendimento, 2003.,

Dato che la semplificazione delle il Teorema di Bayes, per una proporzionale quantità, si può utilizzare per stimare la proporzionale ipotesi e parametri (theta) che spiegano il nostro set di dati (X), definita come:

P(theta | X) = P(X | theta) * P(theta)

Massimizzare la quantità nella gamma di theta risolve un problema di ottimizzazione per la stima della tendenza centrale posteriore probabilità (ad es. il modello di distribuzione).,

In quanto tale, questa tecnica è indicata come “stima massima a posteriori”, o stima della MAPPA in breve, e talvolta semplicemente “stima massima posteriore.”

massimizza P(X/theta) * P(theta)

Per ulteriori informazioni sul tema Maximum a Posteriori, vedi il post:

Una delicata introduzione a Maximum a Posteriori (MAP) per l’apprendimento automatico

Ora che abbiamo familiarità con il framework MAP, possiamo dare un’occhiata più da vicino al concetto correlato del classificatore ottimale di Bayes.,

Bayes Optimal Classifier

Il Bayes optimal classifier è un modello probabilistico che rende la previsione più probabile per un nuovo esempio, dato il set di dati di allenamento.

Questo modello è anche indicato come Bayes optimal learner, Bayes classifier, Bayes optimal decision boundary o Bayes optimal discriminant function.

Classificatore di Bayes: modello probabilistico che rende la previsione più probabile per nuovi esempi.,

In particolare, il classificatore ottimale di Bayes risponde alla domanda:

Qual è la classificazione più probabile della nuova istanza dati i dati di allenamento?

Questo è diverso dal framework MAP che cerca l’ipotesi più probabile (modello). Invece, siamo interessati a fare una previsione specifica.

In generale, la classificazione più probabile della nuova istanza si ottiene combinando le previsioni di tutte le ipotesi, ponderate per le loro probabilità posteriori.,

— Pagina 175, Machine Learning, 1997.

L’equazione seguente dimostra come calcolare la probabilità condizionale per una nuova istanza (vi) dati i dati di allenamento (D), dato uno spazio di ipotesi (H).

P(vj | D) = sum {h, H} P(vj | hi) * P(hi | D)

Dove vj è una nuova istanza per essere classificato, H è l’insieme di ipotesi per la classificazione dell’istanza, ciao è un dato di ipotesi, P(vj | hi) è la probabilità posteriore per vi determinata ipotesi ciao, e P(hi | D) è la probabilità posteriore dell’ipotesi hi riportati i dati D.,

La selezione del risultato con la massima probabilità è un esempio di classificazione ottimale di Bayes.

max sum {h in H} P(vj | hi) * P(hi/D)

Qualsiasi modello che classifica esempi usando questa equazione è un classificatore ottimale di Bayes e nessun altro modello può sovraperformare questa tecnica, in media.

Qualsiasi sistema che classifica le nuove istanze in base a è chiamato Bayes optimal classifier o Bayes optimal learner. Nessun altro metodo di classificazione che utilizza lo stesso spazio di ipotesi e la stessa conoscenza precedente può sovraperformare in media questo metodo.,

— Pagina 175, Machine Learning, 1997.

Dobbiamo lasciarlo affondare.

È un grosso problema.

Significa che qualsiasi altro algoritmo che opera sugli stessi dati, lo stesso insieme di ipotesi e le stesse probabilità precedenti non può sovraperformare questo approccio, in media. Da qui il nome ” classificatore ottimale.”

Sebbene il classificatore faccia previsioni ottimali, non è perfetto data l’incertezza nei dati di allenamento e la copertura incompleta del dominio del problema e dello spazio di ipotesi. Come tale, il modello commetterà errori., Questi errori sono spesso indicati come errori Bayes.

Il classificatore Bayes produce il tasso di errore di prova più basso possibile, chiamato tasso di errore di Bayes. Il tasso di errore di Bayes è analogo all’errore irriducibile error

— Page 38, An Introduction to Statistical Learning with Applications in R, 2017.

Poiché il classificatore Bayes è ottimale, l’errore Bayes è l’errore minimo possibile che può essere fatto.

Errore di Bayes: L’errore minimo possibile che può essere fatto quando si fanno previsioni.,

Inoltre, il modello è spesso descritto in termini di classificazione, ad esempio il classificatore Bayes. Tuttavia, il principio si applica altrettanto bene alla regressione: cioè, problemi di modellazione predittiva in cui viene previsto un valore numerico invece di un’etichetta di classe.

È un modello teorico, ma è considerato un ideale che potremmo desiderare di perseguire.

In teoria vorremmo sempre prevedere risposte qualitative usando il classificatore Bayes., Ma per i dati reali, non conosciamo la distribuzione condizionale di Y dato X, e quindi calcolare il classificatore di Bayes è impossibile. Pertanto, il classificatore Bayes funge da gold standard irraggiungibile rispetto al quale confrontare altri metodi.

— Pagina 39, Un’introduzione all’apprendimento statistico con applicazioni in R, 2017.

A causa del costo computazionale di questa strategia ottimale, possiamo invece lavorare con semplificazioni dirette dell’approccio.,

Due delle semplificazioni più comunemente utilizzate utilizzano un algoritmo di campionamento per ipotesi, come il campionamento di Gibbs, o per utilizzare le ipotesi semplificanti del classificatore Naive Bayes.

Algoritmo di Gibbs. Campione casuale ipotesi prevenute sulla loro probabilità posteriore.
Ingenuo Bayes. Supponiamo che le variabili nei dati di input siano condizionatamente indipendenti.,

Per ulteriori informazioni sul tema di Naive Bayes, vedi il post:

Come sviluppare un classificatore Naive Bayes da zero in Python

Tuttavia, molti algoritmi di apprendimento automatico non lineari sono in grado di fare previsioni che sono approssimazioni ravvicinate del classificatore Bayes in pratica.

Nonostante sia un approccio molto semplice, KNN può spesso produrre classificatori sorprendentemente vicini al classificatore Bayes ottimale.,

— Pagina 39, Un’introduzione all’apprendimento statistico con applicazioni in R, 2017.

Ulteriori letture

Questa sezione fornisce più risorse sull’argomento se stai cercando di approfondire.

Post

Una Dolce Introduzione al Massimo a Posteriori (MAP) per l’Apprendimento automatico
Una Dolce Introduzione al Teorema di Bayes, per l’Apprendimento automatico
Come Sviluppare un Naive Bayes Classifier da Zero in Python

Libri

Sezione 6.7 Bayes Ottimale di Classificazione, Machine Learning, 1997.
Sezione 2.4.,2 Errore di Bayes e rumore, Fondamenti di apprendimento automatico, 2a edizione, 2018.
Sezione 2.2.3 L’impostazione della classificazione, un’introduzione all’apprendimento statistico con applicazioni in R, 2017.
Teoria dell’informazione, inferenza e algoritmi di apprendimento, 2003.

Papers

Il Perceptron multistrato come approssimazione ad una funzione discriminante ottimale di Bayes, 1990.
Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains, 2010.
Restricted bayes optimal classifiers, 2000.
Classificatore di Bayes e errore di Bayes, 2013.,

Sommario

In questo post, hai scoperto il classificatore ottimale Bayes per fare le previsioni più accurate per le nuove istanze di dati.

In particolare, hai imparato:

Il teorema di Bayes fornisce un modo di principio per calcolare le probabilità condizionali, chiamato probabilità posteriore.
Maximum a posteriori è un framework probabilistico che trova l’ipotesi più probabile che descrive il set di dati di allenamento.,
Bayes Optimal Classifier è un framework probabilistico che trova la previsione più probabile utilizzando i dati di allenamento e lo spazio delle ipotesi per fare una previsione per una nuova istanza di dati.

Hai qualche domanda?
Fai le tue domande nei commenti qui sotto e farò del mio meglio per rispondere.

Ottieni un handle sulla probabilità per l’apprendimento automatico!

Sviluppa la tua comprensione della probabilità

…,con poche righe di codice python

Scopri come nel mio nuovo Ebook:
Probabilità per l’apprendimento automatico

Fornisce tutorial di autoapprendimento e progetti end-to-end su:
Teorema di Bayes, Ottimizzazione bayesiana, distribuzioni, Massima verosimiglianza, Cross-Entropia, modelli di calibrazione
e molto altro ancora…

Infine Sfrutta l’incertezza nei tuoi progetti

Salta gli accademici. Solo risultati.Scopri cosa c’è dentro