Una introducción suave a las distribuciones de datos estadísticos

Tweet Share Share

última actualización el 8 de agosto de 2019

una muestra de datos formará una distribución, y de lejos la distribución más conocida es la distribución gaussiana, a menudo llamada distribución Normal.

la distribución proporciona una función matemática parametrizada que se puede utilizar para calcular la probabilidad de cualquier observación individual desde el espacio de muestra. Esta distribución describe la agrupación o la densidad de las observaciones, llamada función de densidad de probabilidad., También podemos calcular la probabilidad de que una observación tenga un valor igual o menor que un valor dado. Un resumen de estas relaciones entre observaciones se denomina función de densidad acumulativa.

en este tutorial, descubrirá las funciones de distribución gaussianas y relacionadas y cómo calcular las funciones de probabilidad y densidad acumulativa para cada una.

después de completar este tutorial, usted sabrá:

  • Una introducción suave a las distribuciones estándar para resumir la relación de las observaciones.,
  • Cómo calcular y trazar funciones de probabilidad y densidad para la distribución gaussiana.
  • Las distribuciones T y Chi cuadradas de Student se relacionan con la distribución gaussiana.

inicie su proyecto con My new book Statistics for Machine Learning, incluidos tutoriales paso a paso y los archivos de código fuente de Python para todos los ejemplos.

comencemos.

Una introducción suave a las distribuciones de datos estadísticos
foto de Ed Dunens, algunos derechos reservados.,

resumen del Tutorial

Este tutorial se divide en 4 partes; son:

  1. distribuciones
  2. distribución gaussiana
  3. Distribución T de estudiante
  4. distribución Chi-cuadrada

¿estadísticas para el aprendizaje automático?

tome mi curso intensivo de correo electrónico gratuito de 7 días ahora (con código de muestra).

Haga clic para inscribirse y también obtenga una versión gratuita en PDF del curso.,

descargue su Mini-Curso Gratuito

distribuciones

desde una perspectiva práctica, podemos pensar en una distribución como una función que describe la relación entre las observaciones en un espacio de muestra.

por ejemplo, podemos estar interesados en la edad de los humanos, con edades individuales que representan observaciones en el dominio, y edades de 0 a 125 la extensión del espacio de muestra. La distribución es una función matemática que describe la relación de observaciones de diferentes alturas.,

Una distribución es simplemente una colección de datos, o puntuaciones en una variable. Por lo general, estas puntuaciones se organizan en orden de Menor a Mayor y luego se pueden presentar gráficamente.

— página 6, Statistics in Plain English, tercera edición, 2010.

muchos datos se ajustan a funciones matemáticas bien conocidas y bien entendidas, como la distribución gaussiana. Una función puede ajustar los datos con una modificación de los parámetros de la función, como la media y la desviación estándar en el caso de la Gaussiana.,

una vez que se conoce una función de distribución, se puede usar como taquigrafía para describir y calcular cantidades relacionadas, como probabilidades de observaciones, y trazar la relación entre observaciones en el dominio.

funciones de densidad

Las distribuciones se describen a menudo en términos de sus funciones de densidad o densidad.

Las funciones de densidad son funciones que describen cómo la proporción de datos o la probabilidad de la proporción de observaciones cambian sobre el rango de la distribución.,

dos tipos de funciones de densidad son las funciones de densidad de probabilidad y las funciones de densidad acumulativa.

  • función de Densidad de Probabilidad: calcula la probabilidad de observar un valor dado.
  • Función de densidad acumulativa: calcula la probabilidad de una observación igual o inferior a un valor.

una función de densidad de probabilidad, o PDF, se puede utilizar para calcular la probabilidad de una observación dada en una distribución. También se puede utilizar para resumir la probabilidad de observaciones a través del espacio de muestra de la distribución., Las gráficas del PDF muestran la forma familiar de una distribución, como la curva de campana para la distribución gaussiana.

Las distribuciones a menudo se definen en términos de sus funciones de densidad de probabilidad con sus parámetros asociados.

una función de densidad acumulativa, o CDF, es una forma diferente de pensar sobre la probabilidad de los valores observados. En lugar de calcular la probabilidad de una observación dada como con el PDF, El CDF calcula la probabilidad acumulada para la observación y todas las observaciones anteriores en el espacio de muestra., Le permite comprender y comentar rápidamente cuánto de la distribución se encuentra antes y después de un valor dado. Un CDF a menudo se representa como una curva de 0 a 1 para la distribución.

tanto los PDF como los CDFs son funciones continuas. El equivalente de un PDF para una distribución discreta se llama una función de masa de probabilidad, o PMF.

a continuación, veamos la distribución gaussiana y otras dos distribuciones relacionadas con la Gaussiana que encontrará al usar métodos estadísticos., Vamos a ver cada uno a su vez en términos de sus parámetros, probabilidad, y funciones de densidad acumulativa.

distribución gaussiana

la distribución gaussiana, llamada así por Carl Friedrich Gauss, es el foco de gran parte del campo de la estadística.

los datos de muchos campos de estudio sorprendentemente se pueden describir usando una distribución gaussiana, tanto es así que la distribución a menudo se llama la distribución «normal» porque es tan común.,

una distribución gaussiana se puede describir usando dos parámetros:

  • Media: denotada con la letra minúscula griega mu, es el valor esperado de la distribución.
  • varianza: denotada con la letra minúscula griega sigma elevada a la segunda potencia (porque las unidades de la variable son cuadradas), describe la propagación de la observación desde la media.,

es común utilizar un cálculo normalizado de la varianza llamado desviación estándar

  • desviación estándar: denotada con la letra minúscula griega sigma, describe la propagación normalizada de observaciones a partir de la media.

podemos trabajar con la distribución gaussiana a través del módulo norm SciPy. Norma.la función pdf () se puede usar para crear una función de densidad de probabilidad Gaussiana con un espacio de muestra, Media y desviación estándar dados.

el siguiente ejemplo crea un PDF gaussiano con un espacio de muestra de -5 a 5, una media de 0 y una desviación estándar de 1., Una Gaussiana con estos valores para la media y la desviación estándar se llama la Gaussiana estándar.

al ejecutar el ejemplo se crea una gráfica de línea que muestra el espacio de muestra en el eje x y la probabilidad de cada valor del eje Y. La gráfica de línea muestra la familiar forma de campana para la distribución gaussiana.

la parte superior de la campana muestra el valor más probable de la distribución, llamado el valor esperado o la media, que en este caso es cero, como especificamos en la creación de la distribución.,

gráfico de línea de la función de densidad de probabilidad Gaussiana

la norma.la función cdf () se puede usar para crear una función de densidad acumulativa Gaussiana.

el siguiente ejemplo crea un CDF gaussiano para el mismo espacio de muestra.

al ejecutar el ejemplo se crea una gráfica que muestra una forma de S con el espacio de muestra en el eje x y la probabilidad acumulada del eje Y.

podemos ver que un valor de 2 cubre cerca del 100% de las observaciones, con solo una cola muy delgada de la distribución más allá de ese punto.,

también podemos ver que el valor medio de cero muestra el 50% de las observaciones antes y después de ese punto.

gráfico de línea de la función de densidad acumulativa Gaussiana

distribución T de Student

la distribución T de Student, o simplemente distribución t para abreviar, se denomina por el seudónimo «Student» de William Sealy Gosset.

es una distribución que surge cuando se intenta estimar la media de una distribución normal con muestras de diferentes tamaños., Como tal, es un atajo útil cuando se describe la incertidumbre o error relacionado con la estimación de estadísticas de población para datos extraídos de distribuciones gaussianas cuando se debe tener en cuenta el tamaño de la muestra.

aunque no puede usar la distribución T de Student directamente, puede estimar valores de la distribución requerida como parámetros en otros métodos estadísticos, como las pruebas de significación estadística.,

la distribución se puede describir usando un solo parámetro:

  • Número de grados de libertad: denotado con la letra griega minúscula nu (v), denota el número de grados de libertad.

La clave para el uso de la distribución t es conocer el número deseado de grados de libertad.

el número de grados de libertad describe el número de piezas de información utilizadas para describir una cantidad de población. Por ejemplo, la media tiene n grados de libertad, ya que todas las n Observaciones de la muestra se utilizan para calcular la estimación de la media de la población., Una cantidad estadística que hace uso de otra cantidad estadística en su cálculo debe restar 1 de los grados de libertad, como el uso de la media en el cálculo de la varianza de la muestra.

Las Observaciones en una distribución T de Student se calculan a partir de observaciones en una distribución normal para describir el intervalo para la media de las poblaciones en la distribución normal.,

1
datos = (x – mean(x)) / S / sqrt(n)

Donde x es la observaciones de la distribución Gaussiana, la media es el promedio de observación de x, S es el estándar de la curvatura, y n es el número total de observaciones., Las observaciones resultantes forman la observación t con (n – 1) grados de libertad.

en la práctica, si necesita un valor de una distribución t en el cálculo de una estadística, entonces el número de grados de libertad probablemente será n-1, donde n es el tamaño de su muestra extraída de una distribución gaussiana.

la distribución específica que utilice para un problema determinado depende del tamaño de la muestra.

— página 93, Statistics in Plain English, tercera edición, 2010.,

SciPy proporciona herramientas para trabajar con la distribución t en las estadísticas.t módulo. La función t. pdf () se puede usar para crear una distribución T de estudiante con los grados de libertad especificados.

el siguiente ejemplo crea una distribución t usando el espacio de muestra de -5 a 5 y (10,000 – 1) grados de libertad.

al ejecutar el ejemplo se crea y traza el PDF de la distribución T.

podemos ver la forma de campana familiar a la distribución muy similar a la normal., Una diferencia clave es las colas más gordas en la distribución, destacando la mayor probabilidad de observaciones en las colas en comparación con la de la Gaussiana.

gráfico de línea de la función de densidad de probabilidad de la distribución T de Student

la función t.cdf() se puede usar para crear la función de densidad acumulativa para la distribución T. El siguiente ejemplo crea el CDF en el mismo rango que el anterior.,

ejecutando el ejemplo, vemos la curva familiar en forma de S Como vemos con la distribución gaussiana, aunque con transiciones ligeramente más suaves de probabilidad cero a una probabilidad para las colas más gordas.

gráfico de línea de la función de densidad acumulada de la distribución T de Student

distribución Chi-cuadrada

la distribución chi-cuadrada se denota como la letra griega en minúscula chi (X) elevada a la segunda potencia (x^2).,

al igual que la distribución T de Student, la distribución chi-cuadrado también se utiliza en métodos estadísticos sobre datos extraídos de una distribución gaussiana para cuantificar la incertidumbre. Por ejemplo, la distribución de chi-cuadrado se utiliza en las pruebas estadísticas de chi-cuadrado para la independencia. De hecho, la distribución chi-cuadrado se utiliza en la derivación de la distribución T de Student.

la distribución chi-cuadrado tiene un parámetro:

  • grados de libertad, denotados k.,

una observación en una distribución chi-cuadrada se calcula como la suma de observaciones K al cuadrado extraídas de una distribución gaussiana.,

1
chi = suma x^2 para i=1 a k.,

donde chi es una observación que tiene una distribución chi-cuadrada, x son observaciones extraídas de una distribución gaussiana, y k es el número de x observaciones que también es el número de grados de libertad para la distribución chi-cuadrada.

nuevamente, al igual que con la distribución T de Student, los datos no se ajustan a una distribución chi-cuadrado; en cambio, las observaciones se extraen de esta distribución en el cálculo de métodos estadísticos para una muestra de datos gaussianos.

SciPy proporciona las estadísticas.,módulo chi2 para el cálculo estadístico de la distribución chi-cuadrado. El chi2.la función pdf () se puede usar para calcular la distribución chi-cuadrada para un espacio de muestra entre 0 y 50 con 20 grados de libertad. Recuerde que los valores de suma al cuadrado deben ser positivos, de ahí la necesidad de un espacio de muestra positivo.

ejecutando el ejemplo calcula el PDF chi-cuadrado y lo presenta como un gráfico de líneas.

con 20 grados de libertad, podemos ver que el valor esperado de la distribución está justo por debajo del valor 20 en el espacio de muestra., Esto es intuitivo si pensamos que la mayor parte de la densidad en la distribución gaussiana se encuentra entre -1 y 1 y luego la suma de las observaciones aleatorias al cuadrado de la gaussiana estándar sumaría justo por debajo del número de grados de libertad, en este caso 20.

aunque la distribución tiene una forma de campana, la distribución no es simétrica.

gráfico de línea de la función de densidad de probabilidad Chi-Cuadrado

El chi2.la función cdf () se puede usar para calcular la función de densidad acumulada sobre el mismo espacio de muestra.,

ejecutando el ejemplo se crea una gráfica de la función de densidad acumulada para la distribución chi-cuadrado.

la distribución ayuda a ver la probabilidad para el valor de chi-cuadrado alrededor de 20 con la cola gorda a la derecha de la distribución que continuaría mucho después del final de la gráfica.

gráfico de línea de la función de densidad acumulativa de distribución Chi-cuadrado

extensiones

Esta sección enumera algunas ideas para ampliar el tutorial que tal vez desee explorar.,

  • vuelva a crear las gráficas PDF y CDF para una distribución con un nuevo espacio de muestra.
  • calcular y trazar el PDF y CDF para las distribuciones de Cauchy y Laplace.
  • busque e implemente las ecuaciones para el PDF y CDF para una distribución desde cero.

si explora alguna de estas extensiones, me encantaría saberlo.

más información

esta sección proporciona más recursos sobre el tema si desea profundizar.

Books

  • Statistics in Plain English, tercera edición, 2010.

API

  • Statistics (scipy.,estadísticas)
  • scipy.estadísticas.norma API
  • scipy.estadísticas.T API
  • scipy.estadísticas.chi2 API

artículos

  • Función de densidad de probabilidad en Wikipedia
  • Función de distribución acumulativa en Wikipedia
  • Función de masa de probabilidad en Wikipedia
  • Distribución Normal en Wikipedia
  • Distribución t del estudiante en Wikipedia
  • distribución Chi-cuadrada en Wikipedia

resumen

en este tutorial, descubrió funciones de distribución relacionadas y cómo calcular las funciones de probabilidad y densidad acumulativa para cada una.,

Específicamente, aprendiste:

  • Una introducción suave a las distribuciones estándar para resumir la relación de las observaciones.
  • Cómo calcular y trazar funciones de probabilidad y densidad para la distribución gaussiana.
    Las distribuciones T y Chi cuadradas de Student se relacionan con la distribución gaussiana.

¿tiene alguna pregunta?Haga sus preguntas en los comentarios a continuación y haré mi mejor esfuerzo para responder.

Conseguir una Manija en las Estadísticas para el Aprendizaje de Máquina!,

desarrolle una comprensión de trabajo de las estadísticas

writing escribiendo líneas de código en python

descubra cómo en mi nuevo Ebook:
métodos estadísticos para el aprendizaje automático

proporciona tutoriales de autoaprendizaje sobre temas como:
pruebas de hipótesis, correlación, estadísticas no paramétricas, remuestreo y mucho más…

descubra cómo transformar los datos en conocimiento

omita lo académico. Sólo Resultados.

Ver Lo que está Dentro de

Tweet Compartir Compartir

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *