O introducere blândă în distribuțiile de date statistice

Tweet Share Share

Ultima actualizare în August 8, 2019

un eșantion de date va forma o distribuție și, de departe, cea mai cunoscută distribuție este distribuția Gaussiană, numită adesea distribuția normală.distribuția oferă o funcție matematică parametrizată care poate fi utilizată pentru a calcula probabilitatea pentru orice observație individuală din spațiul de probă. Această distribuție descrie gruparea sau densitatea observațiilor, numită funcția de densitate de probabilitate., De asemenea, putem calcula probabilitatea ca o observație să aibă o valoare egală sau mai mică decât o valoare dată. Un rezumat al acestor relații între observații se numește o funcție de densitate cumulativă.

în acest tutorial, veți descoperi Gaussian și funcțiile de distribuție aferente și modul de calculare a funcțiilor de probabilitate și densitate cumulativă pentru fiecare.după finalizarea acestui tutorial, veți ști:

  • o introducere blândă a distribuțiilor standard pentru a rezuma relația observațiilor.,
  • cum se calculează și se trasează funcțiile de probabilitate și densitate pentru distribuția Gaussiană.
  • distribuțiile studențești t și Chi-pătrat legate de distribuția Gaussiană.

începeți proiectul cu noile mele statistici de carte pentru învățarea automată, inclusiv tutoriale pas cu pas și fișierele de cod sursă Python pentru toate exemplele.

Să începem.

O usoara Introducere a Datelor Statistice Distribuții
Photo by Ed Dunens, unele drepturi rezervate.,acest tutorial este împărțit în 4 părți; acestea sunt:

  1. distribuții
  2. distribuție Gaussiană
  3. distribuția t a studenților
  4. distribuție Chi-pătrat

aveți nevoie de ajutor cu statistici pentru învățarea automată?

ia meu gratuit de 7 zile de e-mail crash course acum (cu codul de probă).Faceți clic pentru a vă înscrie și pentru a obține, de asemenea, o versiune gratuită de Ebook PDF a cursului.,

Descarcă GRATUIT Mini-Curs

Distribuții

Dintr-o perspectivă practică, ne putem gândi la o distribuție ca o funcție care descrie relația dintre observațiile într-un spațiu eșantion.de exemplu, am putea fi interesați de vârsta oamenilor, vârstele individuale reprezentând observații în domeniu și vârstele de la 0 la 125 dimensiunea spațiului eșantionului. Distribuția este o funcție matematică care descrie relația observațiilor de diferite înălțimi.,

o distribuție este pur și simplu o colecție de date, sau scoruri, pe o variabilă. De obicei, aceste scoruri sunt aranjate în ordine de la cel mai mic la cel mai mare și apoi pot fi prezentate grafic.

— Pagina 6, Statistics in Plain English, ediția a treia, 2010.multe date sunt conforme cu funcții matematice bine cunoscute și bine înțelese, cum ar fi distribuția Gaussiană. O funcție poate potrivi datele cu o modificare a parametrilor funcției, cum ar fi abaterea medie și standard în cazul Gaussian.,odată ce o funcție de distribuție este cunoscută, ea poate fi folosită ca o prescurtare pentru descrierea și calcularea cantităților conexe, cum ar fi probabilitatea observațiilor și trasarea relației dintre observațiile din domeniu.distribuțiile sunt adesea descrise în funcție de funcțiile lor de densitate sau densitate.funcțiile de densitate sunt funcții care descriu modul în care proporția de date sau probabilitatea proporției de observații se schimbă în intervalul de distribuție.,două tipuri de funcții de densitate sunt funcțiile de densitate de probabilitate și funcțiile de densitate cumulativă.

  • funcția de densitate de probabilitate: calculează probabilitatea de a observa o valoare dată.
  • funcția de densitate cumulativă: calculează probabilitatea unei observații egală sau mai mică decât o valoare.

o funcție de densitate de probabilitate, sau PDF, poate fi utilizată pentru a calcula probabilitatea unei observații date într-o distribuție. De asemenea, poate fi folosit pentru a rezuma probabilitatea observațiilor în spațiul de probă al distribuției., Parcelele PDF arată forma familiară a unei distribuții, cum ar fi curba clopot pentru distribuția Gaussiană.distribuțiile sunt adesea definite în funcție de funcțiile lor de densitate de probabilitate cu parametrii asociați.

o funcție de densitate cumulativă sau CDF este un mod diferit de a gândi despre probabilitatea valorilor observate. În loc să calculeze probabilitatea unei observații date ca în cazul PDF-ului, CDF calculează probabilitatea cumulată pentru observație și toate observațiile anterioare din spațiul eșantionului., Vă permite să înțelegeți rapid și să comentați cât de mult din distribuție se află înainte și după o anumită valoare. Un CDF este adesea reprezentat grafic ca o curbă de la 0 la 1 Pentru distribuție.atât PDF – urile cât și CDF-urile sunt funcții continue. Echivalentul unui PDF pentru o distribuție discretă se numește o funcție de masă de probabilitate sau PMF.apoi, să ne uităm la distribuția gaussiană și la alte două distribuții legate de Gaussianul pe care îl veți întâlni atunci când utilizați metode statistice., Vom analiza fiecare la rândul său în ceea ce privește parametrii, probabilitatea și funcțiile de densitate cumulativă.distribuția Gaussiană, numită după Carl Friedrich Gauss, este punctul central al unei mari părți a domeniului statistic.în mod surprinzător, datele din multe domenii de studiu pot fi descrise folosind o distribuție Gaussiană, atât de mult încât distribuția este adesea numită distribuție „normală”, deoarece este atât de comună.,o distribuție Gaussiană poate fi descrisă folosind doi parametri:

  • medie: notată cu litera mică greacă mu, este valoarea așteptată a distribuției.
  • varianță: notată cu litera greacă mică sigma ridicată la a doua putere (deoarece unitățile variabilei sunt pătrate), descrie răspândirea observației din medie.,

este obișnuit să se utilizeze un calcul normalizat al varianței numit deviația standard

  • deviația standard: notată cu litera greacă mică sigma, descrie răspândirea normalizată a observațiilor din medie.

putem lucra cu distribuția Gaussiană prin modulul SciPy norm. Norma.pdf () funcția poate fi utilizată pentru a crea o funcție Gaussian densitate de probabilitate cu un spațiu de probă dat, medie, și deviația standard.

exemplul de mai jos creează un PDF Gaussian cu un spațiu de probă de la -5 la 5, o medie de 0 și o abatere standard de 1., Un Gaussian cu aceste valori pentru abaterea medie și standard se numește Gaussian Standard.

rularea exemplului creează o diagramă de linie care arată spațiul de probă în axa x și probabilitatea fiecărei valori a axei Y. Graficul liniei arată forma familiară a clopotului pentru distribuția Gaussiană.

partea de sus a clopotului arată valoarea cea mai probabilă din distribuție, numită valoarea așteptată sau media, care în acest caz este zero, așa cum am specificat în crearea distribuției.,

Linia de Teren de Gaussian Funcția Densității de Probabilitate

norma.funcția cdf () poate fi utilizată pentru a crea o funcție de densitate cumulativă Gaussiană.

exemplul de mai jos creează un CDF Gaussian pentru același spațiu de probă.

rularea exemplului creează un complot care arată o formă S cu spațiul de probă pe axa x și probabilitatea cumulativă a axei Y.putem vedea că o valoare de 2 acoperă aproape 100% din observații, cu doar o coadă foarte subțire a distribuției dincolo de acel punct.,

putem vedea, de asemenea, că valoarea medie a zero arată 50% din observațiile înainte și după acel punct.

Linia de Teren de Gaussian Cumulat Funcția de Densitate

t Student-Distribuție

Elevului t-distribuție, sau doar t-distribuție pentru scurt, este numit pentru pseudonim, „Elev”, de William Sealy Gosset.este o distribuție care apare atunci când se încearcă estimarea mediei unei distribuții normale cu eșantioane de dimensiuni diferite., Ca atare, este o scurtătură utilă atunci când se descrie incertitudinea sau eroarea legată de estimarea statisticilor populației pentru datele extrase din distribuțiile gaussiene atunci când trebuie luată în considerare dimensiunea eșantionului.deși nu puteți utiliza direct distribuția t a Studentului, puteți estima valorile din distribuția necesară ca parametri în alte metode statistice, cum ar fi testele de semnificație statistică.,distribuția poate fi descrisă folosind un singur parametru:

  • numărul de grade de libertate: notat cu litera greacă mică nu (v), denotă numărul de grade de libertate.

cheia utilizării distribuției t este cunoașterea numărului dorit de grade de libertate.

numărul de grade de libertate descrie numărul de bucăți de informații utilizate pentru a descrie o cantitate de populație. De exemplu, media are n grade de libertate, deoarece toate observațiile n din eșantion sunt utilizate pentru a calcula estimarea mediei populației., O cantitate statistică care utilizează o altă cantitate Statistică în calculul său trebuie să scadă 1 din gradele de libertate, cum ar fi utilizarea mediei în calculul varianței eșantionului.

observațiile în distribuția t a unui Student sunt calculate din observațiile într-o distribuție normală pentru a descrie intervalul pentru media populațiilor în distribuția normală.,

1
data = (x – mean(x)) / S / sqrt(n)

în cazul în Care x este observațiile din distribuție Gaussiană, adică este în medie de observare a x, S este standard de curbură și n este numărul total de observații., Observațiile rezultate formează observația t cu (n-1) grade de libertate.în practică, dacă aveți nevoie de o valoare dintr-o distribuție t în calculul unei statistici, atunci numărul de grade de libertate va fi probabil n – 1, Unde n este dimensiunea eșantionului dvs. extras dintr-o distribuție Gaussiană.

Ce distribuție specifică utilizați pentru o anumită problemă depinde de dimensiunea eșantionului.

— Page 93, Statistics in Plain English, Third Edition, 2010.,scipy oferă instrumente pentru lucrul cu distribuția t în statistici.modulul T. T. pdf () funcția poate fi utilizată pentru a crea un Student t-distribuție cu gradele specificate de libertate.exemplul de mai jos creează o distribuție t folosind spațiul de probă de la -5 la 5 și (10.000-1) grade de libertate.

rularea exemplului creează și trasează PDF-ul t-distribution.

putem vedea forma familiară a clopotului la distribuție la fel ca cea normală., O diferență cheie este cozile mai grase din distribuție, subliniind probabilitatea crescută de observații în cozi comparativ cu cea a Gaussianului.

Linia Complot al Elevului t-Distribuție Funcția Densității de Probabilitate

t.cdf funcția() poate fi folosit pentru a crea funcția de densitate cumulată pentru t-distribuție. Exemplul de mai jos creează CDF în același interval ca mai sus.,

rulând exemplul, vedem curba familiară în formă de S așa cum vedem cu distribuția Gaussiană, deși cu tranziții ușor mai moi de la zero-probabilitate la una-probabilitate pentru cozile mai grase.

Linia Complot al Elevului t-distribuție Cumulativă Funcția de Densitate

Chi-Pătrat de Distribuție

distribuția chi-pătrat este notată ca lowecase litera grecească chi (X) ridicat la puterea a doua (X^2).,ca și distribuția t a Studentului, distribuția chi-pătrat este, de asemenea, utilizată în metode statistice privind datele extrase dintr-o distribuție Gaussiană pentru a cuantifica incertitudinea. De exemplu, distribuția chi-pătrat este utilizată în testele statistice chi-pătrat pentru independență. De fapt, distribuția chi-pătrat este utilizată în derivarea distribuției t a elevului.distribuția chi-pătrat are un parametru:

  • grade de libertate, notate k.,

o observație într-o distribuție chi-pătrat este calculată ca suma observațiilor k pătrat extrase dintr-o distribuție Gaussiană.,

1
chi = suma x^2 pentru i=1 la k.,

în cazul în Care chi-ul este o observație care are un chi-pătrat de distribuție, x sunt de observație trase dintr-o distribuție Gaussiană, iar k este numărul de x observații care este, de asemenea, numărul de grade de libertate pentru distribuția chi-pătrat.din nou ,ca și în cazul distribuției t a Studentului, datele nu se potrivesc unei distribuții chi-pătrat; în schimb, observațiile sunt extrase din această distribuție în calculul metodelor statistice pentru un eșantion de date gaussiene.

SciPy oferă Statisticile.,modulul chi2 pentru calcularea statisticilor pentru distribuția chi-pătrat. Chi2.pdf () funcția poate fi utilizată pentru a calcula distribuția chi-pătrat pentru un spațiu de probă între 0 și 50 cu 20 de grade de libertate. Amintiți-vă că suma valorilor pătrate trebuie să fie pozitivă, de aici necesitatea unui spațiu de probă pozitiv.

rularea exemplului calculează PDF-ul chi-pătrat și îl prezintă ca un complot de linie.cu 20 de grade de libertate, putem vedea că valoarea așteptată a distribuției este doar scurt de valoarea 20 pe spațiul de probă., Acest lucru este ușor de înțeles dacă ne gândim majoritatea dintre densitatea în distribuție Gaussiană se află între -1 și 1 și apoi suma pătratelor niște observații de la standard Gaussian-ar rezuma la doar sub numărul de grade de libertate, în acest caz 20.deși distribuția are o formă de clopot, distribuția nu este simetrică.

Linia Complot al Chi-Pătrat Funcția Densității de Probabilitate

chi2.funcția cdf () poate fi utilizată pentru a calcula funcția de densitate cumulată pe același spațiu de probă.,

rularea exemplului creează o diagramă a funcției de densitate cumulativă pentru distribuția chi-pătrat.distribuția ajută pentru a vedea probabilitatea pentru valoarea chi-pătrat în jurul valorii de 20 cu coada de grăsime la dreapta distribuției, care ar continua pe mult timp după sfârșitul parcelei.

Linia Complot de distribuția Chi-pătrat Cumulat Funcția de Densitate

Extensii

Acest capitol enumeră unele idei pentru extinderea tutorial pe care ați putea dori să exploreze.,

  • recreați parcelele PDF și CDF pentru o distribuție cu un nou spațiu de probă.
  • calculați și plotați PDF și CDF pentru distribuțiile Cauchy și Laplace.
  • Căutați și implementați ecuațiile pentru PDF și CDF pentru o distribuție de la zero.

dacă explorați oricare dintre aceste extensii, mi-ar plăcea să știu.

Lectură suplimentară

această secțiune oferă mai multe resurse pe această temă dacă doriți să aprofundați.

Cărți

  • statistici în limba engleză, ediția a treia, 2010.

API

  • Statistici (scipy.,statistici)
  • scipy.statistici.norm API
  • scipy.statistici.t API
  • scipy.statistici.chi2 API

Articole

  • funcția densității de Probabilitate pe Wikipedia
  • funcția de distribuție Cumulativă pe Wikipedia
  • funcția de masă de Probabilitate pe Wikipedia
  • distribuția Normală pe Wikipedia
  • Student t-distribuție pe Wikipedia
  • Chi-pătrat de distribuție pe Wikipedia

Sumar

În acest tutorial, ai descoperit Gaussian și legate de funcțiile de distribuție și cum de a calcula și probabilitatea cumulativă densitate funcții pentru fiecare.,mai exact, ați învățat:

  • o introducere blândă în distribuțiile standard pentru a rezuma relația observațiilor.
  • cum se calculează și se trasează funcțiile de probabilitate și densitate pentru distribuția Gaussiană.
    distribuțiile studențești T și Chi-pătrat legate de distribuția Gaussiană.

aveți întrebări?
puneți întrebările în comentariile de mai jos și voi face tot posibilul pentru a răspunde.

obțineți un mâner pe statistici pentru Machine Learning!,

a Dezvolta o înțelegere de lucru a statistici

…scriind linii de cod în python

a Descoperi modul în noua mea carte Electronică:
Metode Statistice pentru Masina de Învățare

Acesta oferă auto-studiu tutoriale pe teme cum ar fi:
de Ipoteze, de Corelație, Statistici Neparametrice, re-eșantionarea, și mult mai mult…

Descoperiți cum să transformați datele în cunoștințe

săriți academicienii. Doar Rezultate.

vezi ce este în interiorul

Tweet Share Share

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *