A Gentle Introduction to the Bayes Optimal Classificier

Tweet Share

Last Updated on August 19, 2020

The Bayes Optimal Classificator is a probabilistic model that makes the most probable prediction for a new example.

é descrito usando o teorema de Bayes que fornece uma maneira principiada para calcular uma probabilidade condicional. Está também estreitamente relacionado com o máximo a Posteriori: um quadro probabilístico referido como mapa que encontra a hipótese mais provável para um conjunto de dados de formação.,

Na prática, o Bayes Ideal Classificador é computacionalmente caro, se não intratável para calcular, e, em vez disso, simplificações, tais como o algoritmo de Gibbs e Naive Bayes pode ser usada para aproximar o resultado.

neste post, você vai descobrir Bayes Classifier ideal para fazer as previsões mais precisas para novas instâncias de dados.

Após ler este post, você saberá:

  • Bayes Theorem provides a principled way for calculating conditional probabilities, called a posterior probability.,
  • máximo A Posteriori é um quadro probabilístico que encontra a hipótese mais provável que descreve o conjunto de dados de formação.
  • Bayes Optimal classification is a probabilistic model that finds the most probabilistic prediction using the training data and space of hypotheses to make a prediction for a new data instance.

kick-start o seu projecto com a minha nova probabilidade de livro para a aprendizagem de máquinas, incluindo tutoriais passo-a-passo e os ficheiros de código-fonte Python para todos os exemplos.vamos começar.,

a Gentle Introduction to the Bayes Optimal Classificier
Photo by Nate Loper, some rights reserved.

Descrição

Este tutorial está dividido em três partes; são eles:

  1. Teorema de Bayes
  2. Maximum a Posteriori (MAP)
  3. Bayes Ideal Classificador

Teorema de Bayes

Lembrar que o teorema de Bayes fornece uma, baseada em princípios de cálculo de uma probabilidade condicional.,

Ele consiste em calcular a probabilidade condicional de um resultado dado outro resultado, usando o inverso dessa relação, declarou o seguinte:

  • P(A | B) = P(B | A) * P(A)) / P(B)

A quantidade que estamos cálculo é normalmente referida como a posterior probabilidade de A dado B e P(A) é conhecida como a probabilidade anterior de A.

A normalizar constante de P(B) pode ser removido, e o posterior pode ser mostrado para ser proporcional à probabilidade de B dado Um multiplicado pelo prior.,

  • P(A | B) é proporcional a P(B | A) * P(A)

Ou, simplesmente:

  • P(A | B) = P(B | A) * P(A)

Esta é uma simplificação útil como não estamos interessados em estimar uma probabilidade, mas, em vez disso, na otimização de uma quantidade. Uma quantidade proporcional é suficiente para este fim.

For more on the topic of Bayes Theorem, see the post:

  • A Gentle Introduction to Bayes Theorem for Machine Learning

Now that we are up to speed on Bayes Theorem, let’s also take a look at the Maximum a Posteriori framework.,a aprendizagem por máquina implica encontrar um modelo (hipótese) que melhor explique os dados de formação.

Existem dois frameworks probabilísticos que estão subjacentes a muitos algoritmos de aprendizagem de máquinas diferentes.

são:

  • máximo a Posteriori (mapa), um método Bayesiano.estimativa da probabilidade máxima (MLE), um método frequente.

o objectivo de ambos estes quadros no contexto da aprendizagem por máquina é localizar a hipótese que é mais provável dado o conjunto de dados de formação.,

especificamente, eles respondem à pergunta:

Qual é a hipótese mais provável dado os dados de treinamento?

as duas abordagens enquadrar o problema de ajuste de um modelo de otimização e envolvem a procurar uma distribuição e um conjunto de parâmetros para a distribuição que melhor descreve os dados observados.

MLE é uma abordagem freqüente, e o mapa fornece uma alternativa Bayesiana.,

uma substituição popular para maximizar a probabilidade é maximizar a densidade de probabilidade posterior Bayesiana dos parâmetros em vez disso.

— Page 306, Information Theory, inferência and Learning Algorithms, 2003.,

Dada a simplificação do Teorema de Bayes proporcional da quantidade, podemos usá-lo para estimar o proporcional de hipóteses e parâmetros (theta) que explicam nosso conjunto de dados (X), definido como:

  • P(theta | X) = P(X | theta) * P(theta)

Maximizar essa quantidade ao longo de um intervalo de theta resolve um problema de otimização para estimar a tendência central da probabilidade posterior (por exemplo, o modelo de distribuição).,

Como tal, esta técnica é referida como” estimativa máxima a posteriori”, ou estimativa de mapa para curta, e às vezes simplesmente ” estimativa máxima posterior.”

  • maximizar P(X | theta) * P(theta)

Para mais informações sobre o tema de Máximo a Posteriori, veja o post:

  • Uma Suave Introdução ao Máximo a Posteriori (MAP) para Machine Learning

Agora que estamos familiarizados com o MAPA do quadro, nós podemos dar uma olhada mais de perto as relacionadas com o conceito de Bayes ideal classificador.,

Bayes Optimal Classifier

The Bayes optimal classification is a probabilistic model that makes the most probabilistic prediction for a new example, given the training dataset.

Este modelo também é referido como o Bayes optimal learner, o Bayes classifier, Bayes optimal decision boundary, ou a Bayes optimal discriminant function.

  • Bayes Classificador: modelo probabilístico que faz a previsão mais provável para novos exemplos.,

especificamente, o classificador ideal Bayes responde à pergunta:

Qual é a classificação mais provável da nova instância, tendo em conta os dados de formação?

isto é diferente da estrutura do mapa que procura a hipótese mais provável (modelo). Em vez disso, estamos interessados em fazer uma previsão específica.

Em geral, a classificação mais provável da nova instância é obtida combinando as previsões de todas as hipóteses, ponderadas por suas probabilidades posteriores.,

— Page 175, Machine Learning, 1997.

a equação abaixo demonstra como calcular a probabilidade condicional para uma nova instância (vi) dado os dados de treinamento (D), dado um espaço de hipóteses (H).

  • P(vj | D) = soma {h, H} P(vj | hi) * P(hi | D)

Onde vj é uma nova instância para ser classificado, H é o conjunto de hipóteses para a classificação instância, a oi é uma dada hipótese, P(vj | hi) é a probabilidade posterior vi dada hipótese hi, e P(hi | D) é posterior a probabilidade de a hipótese hi considerando os dados D.,

selecionar o resultado com a probabilidade máxima é um exemplo de uma classificação ideal de Bayes.

  • max soma {h, H} P(vj | hi) * P(hi | D)

Qualquer modelo que classifica os exemplos usando esta equação é uma Bayes ideal classificador e nenhum outro modelo pode superar esta técnica, em média.

qualquer sistema que classifique novas instâncias de acordo com é chamado de Bayes optimal classifier, ou Bayes optimal learner. Nenhum outro método de classificação usando a mesma hipótese espaço e mesmo conhecimento prévio pode superar este método em média.,

— Page 175, Machine Learning, 1997.temos de deixar que isso se afunde.é uma grande coisa.

significa que qualquer outro algoritmo que opere com os mesmos dados, o mesmo conjunto de hipóteses e as mesmas probabilidades prévias não pode superar esta abordagem, em média. Daí o nome “classifier ideal”.”

Embora o classificador torna ideal previsões, ele não é perfeito, dada a incerteza nos dados de treinamento e cobertura incompleta do domínio do problema e hipótese espaço. Como tal, o modelo vai cometer erros., Estes erros são muitas vezes referidos como erros do Bayes.

o classificador de Bayes produz a menor taxa possível de erro de teste, chamada de taxa de erro de Bayes. The Bayes error rate is analogous to the irreducible error …

— Page 38, An Introduction to Statistical Learning with Applications in r, 2017.

porque o classificador Bayes é ideal, o erro Bayes é o mínimo possível de erro que pode ser feito.

  • Bayes Error: The minimum possible error that can be made when making predictions.,

além disso, o modelo é muitas vezes descrito em termos de classificação, por exemplo, o classificador Bayes. No entanto, o princípio também se aplica à regressão: isto é, problemas de modelagem preditiva onde um valor numérico é previsto em vez de uma etiqueta de classe.

é um modelo teórico, mas é mantido como um ideal que podemos querer perseguir.

em teoria, gostaríamos sempre de prever respostas qualitativas usando o classificador Bayes., Mas para dados reais, não sabemos a distribuição condicional de Y dado X, e assim computando o classificador Bayes é impossível. Portanto, o classificador Bayes serve como um padrão-ouro inatingível contra o qual comparar outros métodos.

— Page 39, An Introduction to Statistical Learning with Applications in r, 2017.por causa do custo computacional desta estratégia ideal, podemos trabalhar com simplificações diretas da abordagem.,

duas das simplificações mais comumente usadas usam um algoritmo de amostragem para hipóteses, como a amostragem de Gibbs, ou para usar os pressupostos simplificadores do Classificador ingênuo de Bayes.algoritmo de Gibbs. Hipóteses de amostra aleatórias baseadas na probabilidade posterior.Bayes ingénuos. Assumir que as variáveis nos dados de entrada são condicionalmente independentes.,

Para mais informações sobre o tema de Naive Bayes, veja o post:

  • Como Desenvolver um Classificador Naive Bayes a partir do Zero em Python

no Entanto, muitos não-linear algoritmos de aprendizado são capazes de fazer previsões são de que são aproximações do classificador de Bayes na prática.

Apesar do fato de que é uma abordagem muito simples, KNN pode muitas vezes produzir classificadores, que são surpreendentemente perto do ideal classificador de Bayes.,

— Page 39, An Introduction to Statistical Learning with Applications in r, 2017.

Leitura Adicional

Esta secção fornece mais recursos sobre o tópico se você está procurando ir mais fundo.

Post

  • Uma Suave Introdução ao Máximo a Posteriori (MAP) para Machine Learning
  • Uma Suave Introdução ao Teorema de Bayes para Machine Learning
  • Como Desenvolver um Classificador Naive Bayes a partir do Zero em Python

Livros

  • item 6.7 Bayes Ideal Classificador, Aprendizado de Máquina, 1997.secção 2.4.,2 Bayes error and noise, Foundations of Machine Learning, 2nd edition, 2018.secção 2.2.3 definição da classificação, Introdução à aprendizagem Estatística com aplicações em R, 2017.
  • Information Theory, inferência and Learning Algorithms, 2003.

Papers

  • The Multilayer Perceptron As an Approximation To a Bayes Optimal Discriminant Function, 1990.
  • Bayes Optimal Multilabel Classification via Probabilistic Classifier Chains, 2010.
  • Restricted bayes optimal classificators, 2000.
  • Bayes Classifier and Bayes Error, 2013.,

resumo

neste post, você descobriu o classificador ideal Bayes para fazer as previsões mais precisas para novas instâncias de dados.

especificamente, você aprendeu:

  • Bayes Theorem provides a principled way for calculating conditional probabilities, called a posterior probability.
  • máximo A Posteriori é um quadro probabilístico que encontra a hipótese mais provável que descreve o conjunto de dados de formação.,
  • Bayes Optimal classification is a probabilistic framework that finds the most probabilistic prediction using the training data and space of hypotheses to make a prediction for a new data instance.tem alguma pergunta?Faça suas perguntas nos comentários abaixo e farei o meu melhor para responder.

    Get a Handle on Probability for Machine Learning!

    desenvolver a sua compreensão da probabilidade

    …,with just a few lines of python code

    Discover how in my new eBook:
    Probability for Machine Learning

    It provides self-study tutorials and end-to-end projects on:
    Bayes Theorem, Bayesian Optimization, Distributions, Maximum Probability, Cross-Entropy, Calibrating Models
    and much more…

    finalmente aproveitar a incerteza em seus projetos

    saltar os acadêmicos. Apenas Resultados.Ver o que está dentro de

    Tweet Share

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *