Une introduction douce aux Distributions de données statistiques

Tweet Share Share

dernière mise à jour le 8 août 2019

un échantillon de données formera une distribution, et de loin la distribution la plus connue est la distribution gaussienne, souvent appelée distribution normale.

la distribution fournit une fonction mathématique paramétrée qui peut être utilisée pour calculer la probabilité de toute observation individuelle à partir de l’espace de l’échantillon. Cette distribution décrit le regroupement ou la densité des observations, appelée fonction de densité de probabilité., On peut aussi calculer la probabilité qu’une observation ayant une valeur égale ou inférieure à une valeur donnée. Un résumé de ces relations entre les observations est appelé une fonction de densité cumulative.

dans ce tutoriel, vous découvrirez les fonctions de distribution gaussienne et connexes et comment calculer les fonctions de probabilité et de densité cumulative pour chacune.

Après avoir terminé ce tutoriel, vous saurez:

Une introduction douce aux distributions standard pour résumer la relation des observations.,
comment calculer et tracer les fonctions de probabilité et de densité pour la distribution gaussienne.
Les distributions Student t et Chi-squared liées à la distribution gaussienne.

lancez votre projet avec mon nouveau livre Statistics for Machine Learning, y compris des tutoriels étape par étape et les fichiers de code source Python pour tous les exemples.

nous allons commencer.

Une Introduction douce aux Distributions de données statistiques
Photo de Ed Dunens, quelques droits réservés.,

aperçu du tutoriel

ce tutoriel est divisé en 4 parties; elles sont:

Distributions
Distribution gaussienne
distribution T de Student
Distribution Chi-Squared

besoin d’aide avec des statistiques pour l’apprentissage automatique?

suivez mon cours intensif de messagerie gratuit de 7 jours maintenant (avec un exemple de code).

Cliquez pour vous inscrire et obtenez également une version Ebook PDF gratuite du cours.,

téléchargez Votre Mini-cours gratuit

Distributions

d’un point de vue pratique, nous pouvons penser à une distribution comme une fonction qui décrit la relation entre les observations dans un espace d’échantillon.

par exemple, nous pouvons nous intéresser à l’âge des humains, les âges individuels représentant les observations dans le domaine, et les âges 0 à 125 l’étendue de l’espace de l’échantillon. La distribution est une fonction mathématique qui décrit la relation des observations de différentes hauteurs.,

Une distribution est simplement une collection de données, ou scores) sur une variable. Habituellement, ces scores sont disposés dans l’ordre du plus petit au plus grand, puis ils peuvent être présentés graphiquement.

— Page 6, statistiques en anglais simple, troisième édition, 2010.

de nombreuses données sont conformes à des fonctions mathématiques bien connues et bien comprises, telles que la distribution gaussienne. Une fonction peut ajuster les données d’une modification des paramètres de la fonction, tels que la moyenne et l’écart-type dans le cas de la Gaussienne.,

Une fois qu’une fonction de distribution est connue, elle peut être utilisée comme raccourci pour décrire et calculer des grandeurs connexes, telles que des probabilités d’observations, et tracer la relation entre les observations dans le domaine.

les Fonctions de Densité

les Distributions sont souvent décrites en termes de densité ou densité de fonctions.

Les fonctions de densité sont des fonctions qui décrivent comment la proportion de données ou la probabilité de la proportion d’observations changent sur la plage de la distribution.,

deux types de fonctions de densité sont les fonctions de densité de probabilité et les fonctions de densité cumulative.

fonction de Densité de Probabilité: calcule la probabilité d’observer une valeur donnée.
fonction de densité Cumulative: calcule la probabilité d’une observation égale ou inférieure à une valeur.

Une fonction de densité de probabilité, ou PDF, peut être utilisée pour calculer la probabilité d’une observation donnée dans une distribution. Il peut également être utilisé pour résumer la probabilité d’observations dans l’espace d’échantillonnage de la distribution., Les graphiques du PDF montrent la forme familière d’une distribution, telle que la courbe en cloche pour la distribution gaussienne.

Les Distributions sont souvent définies en fonction de leurs fonctions de densité de probabilité avec leurs paramètres associés.

une fonction de densité cumulative, ou CDF, est une façon différente de penser à la probabilité des valeurs observées. Plutôt que de calculer la probabilité d’une observation donnée comme avec le PDF, Le CDF calcule la probabilité cumulative pour l’observation et toutes les observations antérieures dans l’espace d’échantillon., Il vous permet de comprendre et de commenter rapidement la part de la distribution située avant et après une valeur donnée. Un CDF est souvent tracé comme une courbe de 0 à 1 pour la distribution.

Les fichiers PDF et CDF sont des fonctions continues. L’équivalent D’un PDF pour une distribution discrète est appelé une fonction de masse de probabilité, ou PMF.

Ensuite, regardons la distribution Gaussienne et deux autres distributions liées à la Gaussienne que vous rencontrerez lors de l’utilisation de méthodes statistiques., Nous examinerons chacun à son tour en termes de paramètres, de probabilité et de fonctions de densité cumulative.

Distribution gaussienne

la distribution gaussienne, nommée D’après Carl Friedrich Gauss, est au centre d’une grande partie du domaine de la statistique.

Les données de nombreux domaines d’études peuvent étonnamment être décrites en utilisant une distribution gaussienne, à tel point que la distribution est souvent appelée la distribution « normale” parce qu’elle est si courante.,

Une distribution gaussienne peut être décrite en utilisant deux paramètres:

moyenne: notée par la lettre minuscule grecque mu, est la valeur attendue de la distribution.
variance: notée par la lettre minuscule grecque sigma élevée à la deuxième puissance (parce que les unités de la variable sont au carré), décrit la propagation de l’observation à partir de la moyenne.,

Il est courant d’utiliser un calcul normalisé de la variance appelé écart-type

écart-type: noté avec la lettre minuscule grecque sigma, décrit la propagation normalisée des observations à partir de la moyenne.

Nous pouvons travailler avec la distribution gaussienne via le module norm scipy. Norme.la fonction pdf () peut être utilisée pour créer une fonction de densité de probabilité gaussienne avec un espace d’échantillon, une moyenne et un écart type donnés.

l’exemple ci-dessous crée un PDF gaussien avec un espace d’échantillon de -5 à 5, une moyenne de 0 et un écart type de 1., Une gaussienne avec ces valeurs pour la moyenne et l’écart type est appelée gaussienne Standard.

L’exécution de l’exemple crée un tracé linéaire montrant l’espace de l’échantillon dans l’axe des abscisses et la probabilité de chaque valeur de l’axe des ordonnées. Le tracé linéaire montre la forme de cloche familière pour la distribution gaussienne.

le haut de la cloche montre la valeur la plus probable de la distribution, appelée la valeur attendue ou la moyenne, qui dans ce cas est nulle, comme nous l’avons spécifié dans la création de la distribution.,

la Ligne de Tracé de la Fonction de Densité de Probabilité Gaussienne

La norme.la fonction cdf () peut être utilisée pour créer une fonction de densité cumulative gaussienne.

l’exemple ci-dessous crée un CDF gaussien pour le même espace d’échantillon.

L’exécution de l’exemple crée un tracé montrant une forme en S avec l’espace de l’échantillon sur l’axe des x et la probabilité cumulative de l’axe des Y.

On peut voir qu’une valeur de 2 couvre près de 100% des observations, avec seulement une très fine queue de la distribution au-delà de ce point.,

Nous pouvons également voir que la valeur moyenne de zéro montre 50% des observations avant et après ce point.

tracé linéaire de la fonction de densité Cumulative gaussienne

Distribution T de Student

la distribution T de Student, ou simplement la distribution T pour faire court, est nommée pour le pseudonyme « Student” par William Sealy Gosset.

C’est une distribution qui se pose lorsque l’on tente d’estimer la moyenne d’une distribution normale avec différentes tailles d’échantillon., En tant que tel, il s’agit d’un raccourci utile pour décrire l’incertitude ou l’erreur liée à l’estimation des statistiques de population pour les données tirées de distributions gaussiennes lorsque la taille de l’échantillon doit être prise en compte.

bien que vous ne puissiez pas utiliser directement la distribution t de L’étudiant, vous pouvez estimer les valeurs de la distribution requise en tant que paramètres dans d’autres méthodes statistiques, telles que les tests de signification statistique.,

la distribution peut être décrite à l’aide d’un seul paramètre:

Nombre de degrés de liberté: noté avec la lettre grecque minuscule nu (v), désigne le nombre de degrés de liberté.

pour l’utilisation de la distribution t est de savoir le nombre de degrés de liberté.

le nombre de degrés de liberté décrit le nombre d’informations utilisées pour décrire une quantité de population. Par exemple, la moyenne a n degrés de liberté, comme tous les n observations dans l’échantillon sont utilisés pour calculer l’estimation de la moyenne de la population., Une grandeur statistique qui utilise une autre grandeur statistique dans son calcul doit soustraire 1 des degrés de liberté, comme l’utilisation de la moyenne dans le calcul de la variance de l’échantillon.

Les Observations dans la distribution T D’un étudiant sont calculées à partir d’observations dans une distribution normale afin de décrire l’intervalle pour la moyenne des populations dans la distribution normale.,

1	data = (x – mean(x)) / S / sqrt(n)

Où x est le observations de la distribution Gaussienne, de moyenne est la moyenne d’observation de x, S) est la norme de la courbure et n est le nombre total d’observations., Les observations résultantes forment l’observation t avec (n – 1) degrés de liberté.

en pratique, si vous avez besoin d’une valeur d’une distribution t dans le calcul d’une statistique, alors le nombre de degrés de liberté sera probablement n-1, où n est la taille de votre échantillon tiré d’une distribution gaussienne.

spécifiques à la distribution que vous utilisez pour un problème donné dépend de la taille de votre échantillon.

— Page 93, statistiques en anglais simple, troisième édition, 2010.,

SciPy fournit des outils pour travailler avec la distribution t dans les statistiques.t module. La fonction T. pdf () peut être utilisée pour créer une distribution T Student avec les degrés de liberté spécifiés.

l’exemple ci-dessous crée une distribution t en utilisant l’espace d’échantillon de -5 à 5 et (10 000 – 1) degrés de liberté.

L’exécution de l’exemple crée et trace le PDF T-distribution.

Nous pouvons voir la forme de cloche familière à la distribution tout comme la normale., Une différence clé est la plus grosse queue dans la distribution, mettant en évidence la probabilité accrue d’observations dans les queues par rapport à celle de la gaussienne.

tracé linéaire de la fonction de densité de probabilité de la Distribution T de L’étudiant

la fonction T. cdf() peut être utilisée pour créer la fonction de densité cumulative pour la distribution T. L’exemple ci-dessous crée le CDF sur la même plage que ci-dessus.,

en exécutant l’exemple, nous voyons la courbe en forme de S familière comme nous le voyons avec la distribution gaussienne, bien qu’avec des transitions légèrement plus douces de la probabilité nulle à la probabilité unique pour les queues plus grosses.

tracé linéaire de la fonction de densité Cumulative de la distribution T de L’étudiant

Distribution du Chi-carré

la distribution du chi-carré est notée comme la lettre grecque minuscule chi (X) élevée à la deuxième puissance (X^2).,

comme la distribution T de Student, la distribution du chi carré est également utilisée dans des méthodes statistiques sur des données tirées d’une distribution gaussienne pour quantifier l’incertitude. Par exemple, la distribution du chi carré est utilisée dans les tests statistiques du chi carré pour l’indépendance. En fait, la distribution du chi carré est utilisée dans la dérivation de la distribution t de L’étudiant.

la distribution du chi carré a un paramètre:

degrés de liberté, notés K.,

Une observation dans une distribution du chi carré est calculée comme la somme de k observations au carré tirées d’une distribution gaussienne.,

1	chi = somme x^2 pour i=1 à k.,

Où chi est une observation qui a un khi-deux, les x sont d’observation établie à partir d’une distribution Gaussienne, et k est le nombre de x observations qui est aussi le nombre de degrés de liberté pour le khi-deux.

encore une fois, comme pour la distribution T de Student, les données ne correspondent pas à une distribution du chi carré; au lieu de cela, les observations sont tirées de cette distribution dans le calcul des méthodes statistiques pour un échantillon de données gaussiennes.

scipy fournit les statistiques.,module chi2 pour le calcul de statistiques pour la distribution du chi carré. Le chi2.la fonction pdf () peut être utilisée pour calculer la distribution du chi carré pour un espace d’échantillon entre 0 et 50 avec 20 degrés de liberté. Rappelons que la somme des valeurs au carré doit être positive, d’où la nécessité d’un espace d’échantillon positif.

L’exécution de l’exemple calcule le fichier PDF au chi carré et le présente sous la forme d’un tracé linéaire.

Avec 20 degrés de liberté, nous pouvons voir que la valeur attendue de la distribution est juste inférieure à la valeur 20 sur l’espace d’échantillon., Ceci est intuitif si nous pensons que la majeure partie de la densité dans la distribution gaussienne se situe entre -1 et 1 et que la somme des observations aléatoires au carré de la gaussienne standard se résumerait à un peu moins du nombre de degrés de liberté, dans ce cas 20.

bien que la distribution ait une forme de cloche, la distribution n’est pas symétrique.

Ligne de terrain du Chi-Carré de la Fonction de Densité de Probabilité

Le chi2.la fonction cdf () peut être utilisée pour calculer la fonction de densité cumulative sur le même espace d’échantillon.,

L’exécution de l’exemple crée un tracé de la fonction de densité cumulative pour la distribution du chi carré.

la distribution aide à voir la probabilité pour la valeur du chi carré autour de 20 avec la queue grasse à droite de la distribution qui continuerait longtemps après la fin de la parcelle.

tracé linéaire de la fonction de densité Cumulative de la distribution du Chi carré

Extensions

Cette section énumère quelques idées pour étendre le tutoriel que vous voudrez peut-être Explorer.,

recréez les tracés PDF et CDF Pour une distribution avec un nouvel espace d’échantillon.
calculer et tracer le PDF et CDF pour les distributions Cauchy et Laplace.
recherchez et implémentez les équations pour le PDF et CDF Pour une distribution à partir de zéro.

Si vous explorez l’une de ces extensions, j’aimerais savoir.

Lecture

Cette section fournit plus de ressources sur le sujet si vous cherchez à aller plus loin.

Livres

Statistiques en clair, Troisième Édition, 2010.

API

Statistiques (scipy.,stats)
scipy.statistique.norme API
scipy.statistique.t API
scipy.statistique.API chi2

Articles

fonction de densité de probabilité sur Wikipedia
fonction de distribution Cumulative sur Wikipedia
fonction de masse de probabilité sur Wikipedia
distribution normale sur Wikipedia
distribution T des étudiants sur Wikipedia
distribution Chi-carré sur Wikipedia

résumé

dans ce tutoriel, vous avez découvert et les fonctions de distribution connexes et comment calculer les fonctions de probabilité et de densité cumulative pour chacun.,

plus précisément, vous avez appris:

Une introduction douce aux distributions standard pour résumer la relation des observations.
comment calculer et tracer les fonctions de probabilité et de densité pour la distribution gaussienne.
Les distributions Student t et Chi-carré liées à la distribution gaussienne.

avez-vous des questions?
Posez vos questions dans les commentaires ci-dessous et je ferai de mon mieux pour y répondre.

Obtenir une Poignée sur les Statistiques pour l’Apprentissage de la Machine!,

développez une compréhension fonctionnelle des statistiques

Discover en écrivant des lignes de code en python

Découvrez comment dans mon nouvel Ebook:
méthodes statistiques pour L’apprentissage automatique

il fournit des tutoriels d’auto-apprentissage sur des sujets tels que:
Tests D’hypothèses, ..

Découvrez comment Transformer les Données en Connaissances

Ignorer les Universitaires. Seulement Les Résultats.

Voir Ce qui est à l’Intérieur de

Tweet partager Partager

El Festival