Una delicata introduzione alle distribuzioni di dati statistici

Tweet Share Share

Ultimo aggiornamento l ‘ 8 agosto 2019

Un campione di dati formerà una distribuzione, e di gran lunga la distribuzione più nota è la distribuzione gaussiana, spesso chiamata Distribuzione Normale.

La distribuzione fornisce una funzione matematica parametrizzata che può essere utilizzata per calcolare la probabilità di ogni singola osservazione dallo spazio campione. Questa distribuzione descrive il raggruppamento o la densità delle osservazioni, chiamata funzione di densità di probabilità., Possiamo anche calcolare la probabilità che un’osservazione abbia un valore uguale o inferiore a un dato valore. Un riassunto di queste relazioni tra le osservazioni è chiamato una funzione di densità cumulativa.

In questo tutorial, scoprirai le funzioni di distribuzione gaussiane e correlate e come calcolare la probabilità e le funzioni di densità cumulativa per ciascuna.

Dopo aver completato questo tutorial, saprai:

  • Una delicata introduzione alle distribuzioni standard per riassumere la relazione delle osservazioni.,
  • Come calcolare e tracciare le funzioni di probabilità e densità per la distribuzione gaussiana.
  • Le distribuzioni Student t e Chi-quadrato relative alla distribuzione gaussiana.

Avvia il tuo progetto con il mio nuovo libro Statistiche per l’apprendimento automatico, inclusi tutorial passo-passo e file di codice sorgente Python per tutti gli esempi.

Iniziamo.

Una delicata introduzione alle distribuzioni di dati statistici
Foto di Ed Dunens, alcuni diritti riservati.,

Tutorial Panoramica

Questo tutorial è diviso in 4 parti, che sono:

  1. Distribuzioni
  2. Distribuzione Gaussiana
  3. t di Student-Distribuzione
  4. Distribuzione Chi-Squared

Bisogno di aiuto con le Statistiche per l’Apprendimento automatico?

Prendi il mio corso accelerato gratuito di 7 giorni (con codice di esempio).

Fare clic per iscriversi e anche ottenere una versione PDF Ebook gratuito del corso.,

Scarica il tuo Mini-Corso GRATUITO

Distribuzioni

Da un punto di vista pratico, possiamo pensare a una distribuzione come una funzione che descrive la relazione tra le osservazioni in uno spazio campione.

Ad esempio, potremmo essere interessati all’età degli umani, con le singole età che rappresentano le osservazioni nel dominio e le età da 0 a 125 l’estensione dello spazio campione. La distribuzione è una funzione matematica che descrive la relazione di osservazioni di diverse altezze.,

Una distribuzione è semplicemente una raccolta di dati, o punteggi, su una variabile. Di solito, questi punteggi sono disposti in ordine dal più piccolo al più grande e quindi possono essere presentati graficamente.

— Pagina 6, Statistiche in inglese semplice, Terza edizione, 2010.

Molti dati sono conformi a funzioni matematiche ben note e ben comprese, come la distribuzione gaussiana. Una funzione può adattare i dati con una modifica dei parametri della funzione, come la media e la deviazione standard nel caso della gaussiana.,

Una volta che una funzione di distribuzione è nota, può essere utilizzata come abbreviazione per descrivere e calcolare quantità correlate, come le probabilità di osservazioni e tracciare la relazione tra le osservazioni nel dominio.

Funzioni di densità

Le distribuzioni sono spesso descritte in termini di densità o funzioni di densità.

Le funzioni di densità sono funzioni che descrivono come la proporzione di dati o la probabilità della proporzione di osservazioni cambia nell’intervallo della distribuzione.,

Due tipi di funzioni di densità sono funzioni di densità di probabilità e funzioni di densità cumulativa.

  • Funzione Densità di probabilità: calcola la probabilità di osservare un dato valore.
  • Funzione di densità cumulativa: calcola la probabilità di un’osservazione uguale o inferiore a un valore.

Una funzione di densità di probabilità, o PDF, può essere utilizzata per calcolare la probabilità di una determinata osservazione in una distribuzione. Può anche essere usato per riassumere la probabilità di osservazioni attraverso lo spazio campione della distribuzione., I grafici del PDF mostrano la forma familiare di una distribuzione, come la curva a campana per la distribuzione gaussiana.

Le distribuzioni sono spesso definite in termini di funzioni di densità di probabilità con i loro parametri associati.

Una funzione di densità cumulativa, o CDF, è un modo diverso di pensare alla probabilità di valori osservati. Invece di calcolare la probabilità di una determinata osservazione come con il PDF, il CDF calcola la probabilità cumulativa per l’osservazione e tutte le osservazioni precedenti nello spazio campione., Ti permette di capire e commentare rapidamente quanta parte della distribuzione si trova prima e dopo un dato valore. Un CDF viene spesso tracciato come una curva da 0 a 1 per la distribuzione.

Sia i PDF che i CDF sono funzioni continue. L’equivalente di un PDF per una distribuzione discreta è chiamato una funzione di massa di probabilità, o PMF.

Quindi, diamo un’occhiata alla distribuzione gaussiana e altre due distribuzioni relative alla gaussiana che incontrerai quando usi metodi statistici., Esamineremo ciascuno a turno in termini di parametri, probabilità e funzioni di densità cumulativa.

Distribuzione gaussiana

La distribuzione gaussiana, dal nome di Carl Friedrich Gauss, è al centro di gran parte del campo della statistica.

I dati di molti campi di studio sorprendentemente possono essere descritti usando una distribuzione gaussiana, tanto che la distribuzione è spesso chiamata distribuzione “normale” perché è così comune.,

Una distribuzione gaussiana può essere descritta usando due parametri:

  • media: Denotato con la lettera minuscola greca mu, è il valore atteso della distribuzione.
  • varianza: Indicata con la lettera minuscola greca sigma elevata alla seconda potenza (perché le unità della variabile sono quadrate), descrive la diffusione dell’osservazione dalla media.,

È comune utilizzare un calcolo normalizzato della varianza chiamato deviazione standard

  • deviazione standard: indicata con la lettera minuscola greca sigma, descrive la diffusione normalizzata delle osservazioni dalla media.

Possiamo lavorare con la distribuzione gaussiana tramite il modulo norm SciPy. Norma.la funzione pdf () può essere utilizzata per creare una funzione di densità di probabilità gaussiana con un dato spazio campione, media e deviazione standard.

L’esempio seguente crea un PDF gaussiano con uno spazio campione da -5 a 5, una media di 0 e una deviazione standard di 1., Una gaussiana con questi valori per la media e la deviazione standard è chiamata Gaussiana standard.

L’esecuzione dell’esempio crea un grafico a linee che mostra lo spazio campione nell’asse x e la probabilità di ciascun valore dell’asse y. La trama della linea mostra la familiare forma a campana per la distribuzione gaussiana.

La parte superiore della campana mostra il valore più probabile dalla distribuzione, chiamato il valore atteso o la media, che in questo caso è zero, come abbiamo specificato nella creazione della distribuzione.,

Trama della funzione di densità di probabilità gaussiana

La norma.la funzione cdf() può essere utilizzata per creare una funzione di densità cumulativa gaussiana.

L’esempio seguente crea un CDF gaussiano per lo stesso spazio campione.

L’esecuzione dell’esempio crea un grafico che mostra una forma a S con lo spazio campione sull’asse x e la probabilità cumulativa dell’asse y.

Possiamo vedere che un valore di 2 copre quasi il 100% delle osservazioni, con solo una coda molto sottile della distribuzione oltre quel punto.,

Possiamo anche vedere che il valore medio di zero mostra il 50% delle osservazioni prima e dopo quel punto.

Trama della funzione di densità cumulativa gaussiana

T-Distribution di Student

La t-distribution di Student, o semplicemente t-distribution in breve, prende il nome dallo pseudonimo “Student” di William Sealy Gosset.

È una distribuzione che si verifica quando si tenta di stimare la media di una distribuzione normale con campioni di dimensioni diverse., In quanto tale, è una scorciatoia utile quando si descrivono incertezze o errori relativi alla stima delle statistiche sulla popolazione per i dati tratti da distribuzioni gaussiane quando la dimensione del campione deve essere presa in considerazione.

Sebbene non sia possibile utilizzare direttamente la distribuzione t dello Studente, è possibile stimare i valori della distribuzione richiesta come parametri in altri metodi statistici, come i test di significatività statistica.,

La distribuzione può essere descritta utilizzando un singolo parametro:

  • numero di gradi di libertà: indicato con la lettera greca minuscola nu (v), indica il numero gradi di libertà.

Chiave per l’uso della t-distribuzione è conoscere il numero desiderato di gradi di libertà.

Il numero di gradi di libertà descrive il numero di informazioni utilizzate per descrivere una quantità di popolazione. Ad esempio, la media ha n gradi di libertà poiché tutte le n osservazioni nel campione vengono utilizzate per calcolare la stima della media della popolazione., Una quantità statistica che fa uso di un’altra quantità statistica nel suo calcolo deve sottrarre 1 dai gradi di libertà, come l’uso della media nel calcolo della varianza del campione.

Le osservazioni nella distribuzione t di uno Studente sono calcolate dalle osservazioni in una distribuzione normale per descrivere l’intervallo per le popolazioni medie nella distribuzione normale.,

1
data = (x – mean(x)) / S / sqrt(n)

Dove x è il osservazioni sulla distribuzione Gaussiana, la media è la media osservazione di x, S è lo standard curvatura e n è il numero totale di osservazioni., Le osservazioni risultanti formano l’osservazione t con (n – 1) gradi di libertà.

In pratica, se si richiede un valore da una distribuzione t nel calcolo di una statistica, il numero di gradi di libertà sarà probabilmente n-1, dove n è la dimensione del campione estratto da una distribuzione gaussiana.

Quale distribuzione specifica si utilizza per un dato problema dipende dalla dimensione del campione.

— Pagina 93, Statistiche in inglese semplice, Terza edizione, 2010.,

SciPy fornisce strumenti per lavorare con la distribuzione t nelle statistiche.modulo T. La funzione t. pdf() può essere utilizzata per creare una distribuzione t Student con i gradi di libertà specificati.

L’esempio seguente crea una distribuzione t utilizzando lo spazio campione da -5 a 5 e (10.000-1) gradi di libertà.

L’esecuzione dell’esempio crea e traccia il PDF della distribuzione T.

Possiamo vedere la familiare forma a campana alla distribuzione molto simile alla normale., Una differenza fondamentale è la coda più grassa nella distribuzione, evidenziando la maggiore probabilità di osservazioni nelle code rispetto a quella della gaussiana.

Trama della funzione Densità di probabilità di distribuzione t dello studente

La funzione t.cdf() può essere utilizzata per creare la funzione densità cumulativa per la distribuzione T. L’esempio seguente crea il CDF sullo stesso intervallo di cui sopra.,

Eseguendo l’esempio, vediamo la familiare curva a forma di S come vediamo con la distribuzione gaussiana, anche se con transizioni leggermente più morbide da zero probabilità a una probabilità per le code più grasse.

Trama di linea della funzione di densità cumulativa della distribuzione t dello Studente

Distribuzione chi-quadrata

La distribuzione chi-quadrata è indicata come la lettera greca a basso caso chi (X) elevata alla seconda potenza (X^2).,

Come la distribuzione t di Student, la distribuzione chi-quadrato viene anche utilizzata nei metodi statistici sui dati tratti da una distribuzione gaussiana per quantificare l’incertezza. Ad esempio, la distribuzione del chi quadrato viene utilizzata nei test statistici del chi quadrato per l’indipendenza. In effetti, la distribuzione chi-quadrato viene utilizzata nella derivazione della distribuzione t di Student.

La distribuzione del chi quadrato ha un parametro:

  • gradi di libertà, denotati k.,

Un’osservazione in una distribuzione chi-quadrata è calcolata come la somma delle osservazioni k al quadrato tratte da una distribuzione gaussiana.,

1
chi = sum x^2 per i=1 a k.,

Dove chi è un’osservazione che non ha una distribuzione chi-quadro, x osservazione sono estratti da una distribuzione Gaussiana, e k è il numero di x osservazioni che è anche il numero di gradi di libertà per la distribuzione chi-quadro.

Ancora una volta, come con la distribuzione t di Student, i dati non si adattano a una distribuzione chi-quadrato; invece, le osservazioni sono tratte da questa distribuzione nel calcolo dei metodi statistici per un campione di dati gaussiani.

SciPy fornisce le statistiche.,modulo chi2 per il calcolo delle statistiche per la distribuzione del chi quadrato. Il chi2.la funzione pdf () può essere utilizzata per calcolare la distribuzione del chi quadrato per uno spazio campione compreso tra 0 e 50 con 20 gradi di libertà. Ricordiamo che i valori della somma al quadrato devono essere positivi, da qui la necessità di uno spazio campione positivo.

L’esecuzione dell’esempio calcola il PDF chi-quadrato e lo presenta come un grafico a linee.

Con 20 gradi di libertà, possiamo vedere che il valore atteso della distribuzione è appena inferiore al valore 20 sullo spazio campione., Questo è intuitivo se pensiamo che la maggior parte della densità nella distribuzione gaussiana si trova tra -1 e 1 e quindi la somma delle osservazioni casuali al quadrato dalla gaussiana standard si sommerebbe a poco meno del numero di gradi di libertà, in questo caso 20.

Sebbene la distribuzione abbia una forma a campana, la distribuzione non è simmetrica.

Trama della funzione di densità di probabilità del Chi quadrato

Il chi2.la funzione cdf() può essere utilizzata per calcolare la funzione di densità cumulativa sullo stesso spazio campione.,

L’esecuzione dell’esempio crea un grafico della funzione di densità cumulativa per la distribuzione del chi quadrato.

La distribuzione aiuta a vedere la probabilità per il valore del chi quadrato intorno a 20 con la coda grassa a destra della distribuzione che continuerebbe a lungo dopo la fine della trama.

Trama della funzione di densità cumulativa della distribuzione Chi-quadrato

Estensioni

Questa sezione elenca alcune idee per estendere il tutorial che potresti voler esplorare.,

  • Ricreare i grafici PDF e CDF per una distribuzione con un nuovo spazio campione.
  • Calcolare e tracciare il PDF e CDF per le distribuzioni di Cauchy e Laplace.
  • Cercare e implementare le equazioni per il PDF e CDF per una distribuzione da zero.

Se esplori una di queste estensioni, mi piacerebbe saperlo.

Ulteriori letture

Questa sezione fornisce più risorse sull’argomento se stai cercando di approfondire.

Libri

  • Statistiche in inglese semplice, Terza edizione, 2010.

API

  • Statistiche (scipy.,statistiche)
  • scipione.Statistica.norma API
  • scipy.Statistica.t API
  • scipy.Statistica.chi2 API

Articoli

  • funzione di densità di Probabilità su Wikipedia
  • funzione di distribuzione Cumulativa su Wikipedia
  • funzione di massa di Probabilità su Wikipedia
  • distribuzione Normale su Wikipedia
  • t di Student-distribuzione su Wikipedia
  • distribuzione Chi-quadro su Wikipedia

Sommario

In questo tutorial, hai scoperto la Gaussiana e le relative funzioni di distribuzione e come calcolare la probabilità cumulativa di funzioni di densità per ogni.,

In particolare, hai imparato:

  • Una delicata introduzione alle distribuzioni standard per riassumere la relazione delle osservazioni.
  • Come calcolare e tracciare le funzioni di probabilità e densità per la distribuzione gaussiana.
    Le distribuzioni Student t e Chi-quadrato relative alla distribuzione gaussiana.

Hai qualche domanda?
Fai le tue domande nei commenti qui sotto e farò del mio meglio per rispondere.

Ottieni un handle sulle statistiche per l’apprendimento automatico!,

Sviluppare un lavoro di comprensione delle statistiche

…scrivendo righe di codice in python

Scopri come nel mio nuovo Ebook:
Metodi Statistici per l’Apprendimento automatico

il self-study, esercitazioni su argomenti come:
Test di Ipotesi, la Correlazione non parametrico di Statistiche, Ricampionamento, e molto di più…

Scopri come trasformare i dati in conoscenza

Salta gli accademici. Solo risultati.

Guarda cosa c’è dentro

Tweet Condividi Condividi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *