A Gentle Introduction to Statistical Data Distributions

Tweet Share

ast Updated on August 8, 2019

a sample of data will form a distribution, and by far the most well-known distribution is the Gaussian distribution, often called the Normal distribution.

a distribuição fornece uma função matemática parametrizada que pode ser usada para calcular a probabilidade de qualquer observação individual a partir do espaço amostral. Esta distribuição descreve o agrupamento ou a densidade das observações, chamada de função densidade de probabilidade., Podemos também calcular a probabilidade de uma observação ter um valor igual ou inferior a um dado valor. Um resumo dessas relações entre observações é chamado de função densidade cumulativa.

neste tutorial, irá descobrir as funções de distribuição Gaussianas e relacionadas e como calcular as funções de probabilidade e densidade cumulativa para cada uma.

Após completar este tutorial, você saberá:

  • Uma introdução suave às distribuições padrão para resumir a relação das observações.,
  • Como calcular e desenhar as funções de probabilidade e densidade para a distribuição gaussiana.
  • as distribuições estudantis t E Chi-quadrado relacionadas com a distribuição gaussiana.

kick-start o seu projecto com as minhas novas estatísticas de livros para a aprendizagem de máquinas, incluindo tutoriais passo-a-passo e os ficheiros de código-fonte Python para todos os exemplos.vamos começar.

a Gentle Introduction to Statistical Data Distributions
Photo by Ed Dunens, some rights reserved.,

Tutorial Visão geral

Este tutorial é dividido em 4 partes; são eles:

  1. Distribuições
  2. Distribuição Gaussiana
  3. t de Student Distribuição
  4. Distribuição Chi-Squared

Precisar de ajuda com Estatísticas de Aprendizado de Máquina?

tome o meu curso livre de estoiro de e-mail de 7 dias agora (com o código de exemplo).

Clique para se inscrever e também obter uma versão ebook PDF livre do curso.,

baixe o seu Mini-curso gratuito

distribuições

de uma perspectiva prática, podemos pensar numa distribuição como uma função que descreve a relação entre observações num espaço de amostra.por exemplo, podemos estar interessados na idade dos seres humanos, com idades individuais representando observações no domínio, e com idades de 0 a 125 a extensão do espaço amostral. A distribuição é uma função matemática que descreve a relação das observações de diferentes alturas.,

uma distribuição é simplesmente uma coleção de dados, ou pontuações, em uma variável. Normalmente, estas pontuações são organizadas em ordem de menor para maior e, em seguida, podem ser apresentadas graficamente.

— Page 6, Statistics in Plain English, Third Edition, 2010.

muitos dados estão em conformidade com funções matemáticas bem conhecidas e bem compreendidas, como a distribuição gaussiana. Uma função pode ajustar os dados com uma modificação dos parâmetros da função, como a média e desvio padrão no caso do Gaussiano.,

Uma vez que uma função de distribuição é conhecida, ela pode ser usada como uma abreviatura para descrever e calcular quantidades relacionadas, tais como likelihoods de observações, e plotar a relação entre observações no domínio.

funções de densidade

distribuições são frequentemente descritas em termos de suas funções de densidade ou densidade.

As funções de densidade são funções que descrevem como a proporção de dados ou a probabilidade da proporção de observações mudam ao longo da Gama de distribuição.,

dois tipos de funções de densidade são funções de densidade de probabilidade e funções de densidade cumulativa.

  • função densidade de probabilidade: calcula a probabilidade de observar um dado valor.
  • função densidade cumulativa: calcula a probabilidade de uma observação igual ou inferior a um valor.

uma função de densidade de probabilidade, ou PDF, pode ser usada para calcular a probabilidade de uma dada observação em uma distribuição. Ele também pode ser usado para resumir a probabilidade de observações em todo o espaço de amostra da distribuição., Gráficos do PDF mostram a forma familiar de uma distribuição, como a curva-sino para a distribuição gaussiana.distribuições

são muitas vezes definidas em termos de suas funções de densidade de probabilidade com seus parâmetros associados.

uma função de densidade cumulativa, ou CDF, é uma forma diferente de pensar sobre a probabilidade de valores observados. Em vez de calcular a probabilidade de uma dada observação como no PDF, o CDF calcula a probabilidade cumulativa para a observação e todas as observações anteriores no espaço de amostra., Permite-lhe compreender e comentar rapidamente a quantidade da distribuição antes e depois de um dado valor. Um CDF é muitas vezes plotado como uma curva de 0 a 1 para a distribuição.tanto PDFs como CDFs são funções contínuas. O equivalente de um PDF para uma distribuição discreta é chamado de função de massa de probabilidade, ou PMF.

A seguir, vamos olhar para a distribuição gaussiana e duas outras distribuições relacionadas com o Gaussiano que você irá encontrar ao usar métodos estatísticos., Vamos olhar cada um por sua vez em termos de seus parâmetros, probabilidade, e funções de densidade cumulativa.

Gaussian Distribution

Gaussian distribution, named for Carl Friedrich Gauss, is the focus of much of the field of statistics.dados de muitos campos de estudo surpreendentemente podem ser descritos usando uma distribuição gaussiana, tanto que a distribuição é muitas vezes chamada de distribuição “normal” porque é tão comum.,

uma distribuição gaussiana pode ser descrita usando dois parâmetros:

  • média: denotado com a letra minúscula grega mu, é o valor esperado da distribuição.variância: denotada com a letra minúscula grega sigma elevada à segunda potência (porque as unidades da variável são quadradas), descreve a propagação da observação a partir da média.,

é comum usar um cálculo normalizado da variância chamado desvio padrão

  • desvio padrão: denotado com a letra grega sigma, descreve a propagação normalizada das observações a partir da média.

Podemos trabalhar com a distribuição gaussiana através do módulo SciPy norma. Norma.a função pdf() pode ser usada para criar uma função de densidade de probabilidade Gaussiana com um dado espaço de amostra, média e desvio padrão.

O exemplo abaixo cria um PDF Gaussiano com um espaço de amostra de -5 a 5, uma média de 0, e um desvio padrão de 1., Um Gaussiano com estes valores para a média e desvio padrão é chamado de Gaussiano padrão.

a execução do exemplo cria uma parcela de linha que mostra o espaço de amostra no eixo dos x e a probabilidade de cada valor do eixo dos Y. O gráfico da linha mostra a forma familiar da campainha para a distribuição gaussiana.

o topo da campainha mostra o valor mais provável a partir da distribuição, chamado o valor esperado ou a média, que neste caso é zero, como especificamos na criação da distribuição.,

Line Plot of the Gaussian Probability Density Function

the norm.a função cdf() pode ser usada para criar uma função de densidade cumulativa Gaussiana.

o exemplo abaixo cria um CDF Gaussiano para o mesmo espaço de amostra.

a execução do exemplo cria uma parcela que mostra uma forma de S com o espaço de amostra no eixo dos x e a probabilidade cumulativa do eixo dos Y.

Podemos ver que um valor de 2 Cobre perto de 100% das observações, com apenas uma cauda muito fina da distribuição além desse ponto.,

também podemos ver que o valor médio de zero mostra 50% das observações antes e depois desse ponto.

Linha do Enredo de Gauss-Cumulativa da Função de Densidade

t de Student Distribuição

O t de Student distribuição, ou apenas distribuição t para breve, é nomeado para o pseudônimo de “Estudante”, de William Sealy Gosset.

é uma distribuição que surge quando se tenta estimar a média de uma distribuição normal com amostras de tamanho diferente., Como tal, é um atalho útil ao descrever a incerteza ou erro relacionado com a estimativa de estatísticas de população para dados extraídos de distribuições Gaussianas quando o tamanho da amostra deve ser levado em conta.

embora você não possa usar a distribuição t do aluno diretamente, você pode estimar valores a partir da distribuição necessária como parâmetros em outros métodos estatísticos, tais como testes de significância estatística.,

a distribuição pode ser descrita usando um único parâmetro:

  • número de graus de liberdade: denotado com a letra grega minúscula nu (v), denota os graus de liberdade.

a chave para o uso da distribuição t é conhecer o número desejado de graus de liberdade.

O número de graus de liberdade descreve o número de peças de informação utilizadas para descrever uma quantidade de população. Por exemplo, a média tem n graus de liberdade como todas as observações n nA amostra são usadas para calcular a estimativa da média da população., Uma quantidade estatística que faça uso de outra quantidade estatística em seu cálculo deve subtrair 1 dos graus de liberdade, como o uso da média no cálculo da variância da amostra.

As observações na distribuição t de um estudante são calculadas a partir de observações numa distribuição normal, a fim de descrever o intervalo para a média das populações na distribuição normal.,

1
dados = (x – mean(x)) / S / sqrt(n)

Onde x é o observações a partir da distribuição de Gauss, a média é a média de observação de x, S é o padrão de curvatura e n é o número total de observações., As observações resultantes formam a observação-t com graus de liberdade (n – 1).

na prática, se você necessitar de um valor de uma distribuição-t no cálculo de uma estatística, então o número de graus de liberdade provavelmente será n – 1, onde n é o tamanho da sua amostra retirada de uma distribuição gaussiana.

Qual a distribuição específica que utiliza para um dado problema depende do tamanho da sua amostra.

— Page 93, Statistics in Plain English, Third Edition, 2010.,

SciPy fornece ferramentas para trabalhar com a distribuição t nas estatísticas.módulo T. A função t. pdf() pode ser usada para criar uma distribuição t estudantil com os graus especificados de liberdade.

o exemplo abaixo cria uma distribuição em t usando o espaço de amostra de -5 a 5 e (10.000 – 1) graus de liberdade.

executando o exemplo cria e complementa a t-distribution PDF.

Podemos ver a forma familiar da campainha para a distribuição muito parecido com o normal., Uma diferença chave é as caudas mais gordas na distribuição, destacando a maior probabilidade de observações nas caudas em comparação com a do Gaussiano.

Linha de Enredo do t de Student a Distribuição de Probabilidade, Função de Densidade

A t.cdf() função pode ser usada para criar cumulativa da função de densidade para a distribuição t. O exemplo abaixo cria o CDF na mesma faixa que acima.,

executando o exemplo, vemos a familiar curva em forma de S como vemos com a distribuição gaussiana, embora com transições ligeiramente mais suaves de zero-probabilidade para uma-probabilidade para as caudas mais gordas.

Linha de Enredo do t de Student a distribuição Cumulativa da Função de Densidade

Distribuição Chi-Squared

distribuição Do qui-quadrado é indicado como o lowecase letra grega chi (X) elevado à segunda potência (X^2).,como a distribuição t do aluno, a distribuição chi-quadrado também é usada em métodos estatísticos em dados extraídos de uma distribuição gaussiana para quantificar a incerteza. Por exemplo, a distribuição chi-quadrado é usada nos testes estatísticos chi-quadrado para a independência. De fato, a distribuição chi-quadrado é usada na derivação da distribuição t do aluno.

a distribuição qui-quadrado tem um parâmetro:

  • graus de liberdade, denotados como K.,

uma observação numa distribuição chi-ao quadrado é calculada como a soma das observações k ao quadrado obtidas a partir de uma distribuição gaussiana.,

1
chi = soma x^2 para i=1 a k.,

Onde chi é uma observação que tem uma distribuição qui ao quadrado, x, são de observação elaborado a partir de uma distribuição Gaussiana, e k é o número de x observações que também é o número de graus de liberdade para a distribuição do qui-quadrado.

Mais uma vez, como acontece com a distribuição t do aluno, os dados não se encaixam numa distribuição chi-ao quadrado; em vez disso, as observações são retiradas desta distribuição no cálculo de métodos estatísticos para uma amostra de dados Gaussianos.

SciPy fornece as estatísticas.,módulo chi2 para o cálculo de estatísticas para a distribuição chi-ao quadrado. O chi2.a função pdf() pode ser usada para calcular a distribuição chi-ao quadrado para um espaço de amostra entre 0 e 50 com 20 graus de liberdade. Lembre-se que a soma dos valores ao quadrado deve ser positiva, daí a necessidade de um espaço de amostra positivo.

executando o exemplo calcula o PDF quadrado chi e apresenta-o como um gráfico de linha.

com 20 graus de liberdade, podemos ver que o valor esperado da distribuição é apenas curto do valor 20 no espaço de amostra., Isto é intuitivo se pensarmos que a maior parte da densidade na distribuição gaussiana está entre -1 e 1 e então a soma das observações aleatórias quadradas do gaussiano padrão somaria para um pouco abaixo do número de graus de liberdade, neste caso 20.

embora a distribuição tenha uma forma semelhante à campainha, a distribuição não é simétrica.

Line Plot of the Chi-Squared Probability Density Function

The chi2.a função cdf() pode ser usada para calcular a função densidade cumulativa sobre o mesmo espaço de amostra.,

executando o exemplo cria um gráfico da função de densidade cumulativa para a distribuição chi-ao quadrado.

a distribuição ajuda a ver a probabilidade para o valor qui-quadrado de cerca de 20 com a cauda gorda à direita da distribuição que continuaria muito depois do fim da parcela.

Line Plot of the Chi-squared distribution Cumulative Density Function

Extensions

Esta secção lista algumas ideias para alargar o tutorial que poderá desejar explorar.,

  • recriar os gráficos PDF e CDF para uma distribuição com um novo espaço de amostra.
  • Calcule e plote o PDF e CDF para as distribuições de Cauchy e Laplace.
  • rocurar e implementar as equações para o PDF e CDF para uma distribuição a partir do zero.se explorar alguma destas extensões, gostaria de saber.

    Leitura Adicional

    Esta secção fornece mais recursos sobre o tópico se você está procurando ir mais fundo.

    Books

    • Statistics in Plain English, Third Edition, 2010.

    API

    • Estatísticas (scipy.,estatísticas)
    • scipy.estatistica.norm API
    • scipy.estatistica.t API
    • scipy.estatistica.chi2 API

    Artigos

    • função de densidade de Probabilidade na Wikipédia
    • função de distribuição Cumulativa na Wikipédia
    • Probabilidade de massa em função Wikipédia
    • distribuição Normal na Wikipédia
    • t de Student distribuição na Wikipédia
    • distribuição Chi-squared na Wikipédia

    Resumo

    neste tutorial, você descobriu o Gaussiana e relacionadas com as funções de distribuição e como calcular a probabilidade e de densidade cumulativa funções para cada um.,

    especificamente, você aprendeu:

    • Uma introdução suave às distribuições padrão para resumir a relação das observações.
    • Como calcular e desenhar as funções de probabilidade e densidade para a distribuição gaussiana.as distribuições estudantis t E Chi-quadrado relacionadas com a distribuição gaussiana.tem alguma pergunta?Faça suas perguntas nos comentários abaixo e farei o meu melhor para responder.

      get a Handle on Statistics for Machine Learning!,

      Desenvolver uma compreensão de trabalho de estatísticas

      …escrevendo linhas de código em python

      Descubra como no meu novo e-Book:
      Métodos Estatísticos para Machine Learning

      Ele fornece auto-estudo tutoriais sobre temas como:
      Testes de Hipótese, Correlação não paramétrica de Estatísticas, Reamostragem, e muito mais…

      descubra como transformar dados em conhecimento

      Skip the Academics. Apenas Resultados.

      ver o que está dentro de

      Tweet Share

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *