Multivariante distribución normal

Probabilidad en diferentes domainsEdit

parte Superior: la probabilidad de un bivariante normal en el dominio x pecado ⁡ y − y cos ⁡ x > 1 {\displaystyle x\pecado y-\cos x>1} (azul regiones). Abajo: la probabilidad de una normal trivariada en un dominio toroidal. Estos son calculados por el método numérico de rayos. Los puntos negros son puntos límite del dominio calculados por el método.,

momentos Superioreseditar

Artículo principal: teorema de Isserlis

los momentos de orden K de x están dados por

μ 1, μ , N ( x ) = d e f μ r 1,…, r N ( x ) = d E f e ⁡ {\displaystyle \mu _{1,\ldots ,N}(\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ \mu _{R_{1},\ldots ,r_{n}}(\mathbf {x} )\ {\stackrel {\mathrm {Def} }{=}}\operatorname {e} \left}

donde R1 + R2 + X + RN = k.

los momentos centrales de orden K son los siguientes

  1. Si k es impar, μ1, μ, n(x-μ) = 0.,
  2. si k es par con k = 2λ, entonces

μ 1 , … , 2 λ ( x − µ ) = ∑ (∑i j σ k ℓ ⋯ σ X Z ) {\displaystyle \mu _{1,\dots ,2\lambda }(\mathbf {x} -{\boldsymbol {\mu }})=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)} E ⁡ = E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + E ⁡ Y ⁡ Y ⁡ + Y ⁡ Y ⁡ Y ⁡ .,torname {Y} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {Y} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {Y} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {Y} .,\end{aligned}}}

las covarianzas se determinan reemplazando los Términos de la lista {\displaystyle } por los términos correspondientes de la lista que consiste en unos r1, luego dos R2, etc.. Para ilustrar esto, examine los siguientes 4º-el fin de momento central de caso:

E ⁡ = 3 ∑ i 2 E ⁡ = 3 ∑ i i ∑ i j E ⁡ = ∑ i i ∑ j j + 2 ∑ i j 2 E ⁡ = ∑ i i ∑ j k + 2 ∑ i j ∑ i k E ⁡ = σ i j ∑ k n + k σ σ i j n + σ i n ∑ j k ., {\displaystyle {\begin{aligned}\operatorname {E} \left&=3\sigma _{ii}^{2}\\\operatorname {E} \left&=3\sigma _{ii}\sigma _{ij}\\\operatorname {Y} \left&=\sigma _{ii}\sigma _{jj}+2\sigma _{ij}^{2}\\\operatorname {E} \left&=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}\\\operatorname {Y} \left&=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{en}\sigma _{jk}.,\end{aligned}}}

Functions of a normal vectorEdit

If F ( x ) {\displaystyle F({\boldsymbol {x}})} is a general scalar-valued function of a normal vector, its probability density function, cumulative distribution function, and inverse cumulative distribution function can be computed with the numerical method of ray-scanning (Matlab code).,dsymbol {x}}} es simplemente el registro de la función de densidad de probabilidad:

ln ⁡ L ( x ) = − 1 2 {\displaystyle \ln L({\boldsymbol {x}})=-{\frac {1}{2}}\left} ,

El circularmente versión simétrica de la noncentral caso complejo, donde z {\displaystyle {\boldsymbol {z}}} es un vector de números complejos, sería

ln ⁡ L ( z ) = − ln ⁡ ( | Σ | ) − ( z − m ) † Σ − 1 ( z − m ) − k ln ⁡ ( π ) {\displaystyle \ln L({\boldsymbol {z}})=-\ln(|{\boldsymbol {\Sigma }}|\,)-({\boldsymbol {z}}-{\boldsymbol {\mu }})^{\daga }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {z}}-{\boldsymbol {\mu }})-k\ln(\pi )}

yo.,e. con la transposición conjugada (indicada por † {\displaystyle \dagger } ) reemplazando la transposición normal (indicada por T {\displaystyle {}^{\rm {T}}} ). Esto es ligeramente diferente que en el caso real, porque la versión circular simétrica de la distribución normal compleja tiene una forma ligeramente diferente para la constante de normalización.

se utiliza una notación similar para la regresión lineal múltiple.

dado que la probabilidad logarítmica de un vector normal es una forma cuadrática del vector normal, se distribuye como una variable chi-cuadrada generalizada.,ty }f(\mathbf {x} )\ln f(\mathbf {x} )\,d\mathbf {x} ,\\&={\frac {1}{2}}\ln \left(\left|\left(2\pi e\right){\boldsymbol {\Sigma }}\right|\derecho)={\frac {1}{2}}\ln \left(\left(2\pi e\ \ derecho)^{k}\left|{\boldsymbol {\Sigma }}\right|\derecho)={\frac {k}{2}}\ln \left(2\pi e\ \ derecho)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\derecho)={\frac {k}{2}}+{\frac {k}{2}}\ln \left(2\pi \derecho)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\derecho)\\\end{aligned}}}

donde las barras denotan el determinante de la matriz de y k es la dimensionalidad del espacio vectorial.,L ( N 0 ‖ N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) + ( µ 1 − µ 0 ) T Σ 1 − 1 ( µ 1 − µ 0 ) − k + ln ⁡ | Σ 1 | | Σ 0 | } , {\displaystyle D_{\text{KL}}({\mathcal {N}}_{0}\|{\mathcal {N}}_{1})={1 \más de 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\derecho)+\left({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0}\derecho)^{\rm {T}}{\boldsymbol {\Sigma }}_{1}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0})-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\},}

donde k {\displaystyle k} es la dimensión del espacio vectorial.,

el logaritmo debe tomarse a base e ya que los dos términos que siguen al logaritmo son logaritmos base-e de expresiones que son factores de la función de densidad o surgen naturalmente. Por lo tanto, la ecuación da un resultado medido en nats. Dividiendo toda la expresión anterior por loge 2 se obtiene la divergencia en bits.

Cuando µ 1 = µ 0 {\displaystyle {\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}} ,

D KL ( C N 0 ‖ C N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) − k + ln ⁡ | Σ 1 | | Σ 0 | } ., {\displaystyle D_{\text{KL}}({\mathcal {CN}}_{0}\|{\mathcal {CN}}_{1})={1 \más de 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\derecho)-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\}.}

Mutuo informationEdit

I ( X ) = − 1 2 ln ⁡ | ρ 0 | , {\displaystyle I({\boldsymbol {X}})=-{1 \over 2}\ln |{\boldsymbol {\rho }}_{0}|,}

En el caso bivariante de la expresión de la información mutua es:

I ( x ; y ) = − 1 2 ln ⁡ ( 1 − ρ 2 ) . {\displaystyle i(x;y)=-{1 \over 2}\ln(1-\rho ^{2}).,}

normalidad Conjuntaeditar

normalmente distribuida e independenteditar

dos variables aleatorias normalmente distribuidas no necesitan ser conjuntamente normaleditar bivariadeditar

correlaciones e independenciaEditar

en general, las variables aleatorias pueden ser correlacionadas pero estadísticamente dependientes. Pero si un vector Aleatorio tiene una distribución normal multivariante entonces dos o más de sus componentes que no están correlacionados son independientes. Esto implica que dos o más de sus componentes que son independientes por pares son independientes., Pero, como se señaló anteriormente, no es cierto que dos variables aleatorias que están (por separado, marginalmente) normalmente distribuidas y no correlacionadas sean independientes.,>{\boldsymbol {\Sigma }}_{22}\end{bmatrix}}{\text{ with sizes }}{\begin{bmatrix}q\times q&q\times (N-q)\\(N-q)\times q&(N-q)\times (N-q))\end{bmatrix}}}

entonces la distribución de x1 condicional en x2 = A es normal multivariante (x1 | x2 = a) ~ n(μ, σ) donde

μ = μ 1 + σ 12 σ 22 − 1 ( a − μ 2) {\displaystyle {\bar {\Boldsymbol {\Mu }}}={\boldsymbol {\Mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left (\mathbf {A} -{\boldsymbol {\mu }}_{2}\right)}

y matriz de covarianza

Σ = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ., {\displaystyle {\overline {\boldsymbol {\Sigma }}}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.}

Esta matriz es el complemento de Schur de Σ22 en Σ. Esto significa que para calcular la matriz de covarianza condicional, se invierte la matriz de covarianza general, se caen las filas y columnas correspondientes a las variables que se condicionan, y luego se invierte de nuevo para obtener la matriz de covarianza condicional., Aquí Σ 22 − 1 {\displaystyle {\boldsymbol {\Sigma }}_{22}^{-1}} es la inversa generalizada de Σ 22 {\displaystyle {\boldsymbol {\Sigma }}_{22}} .

la matriz Σ12Σ22 – 1 se conoce como la matriz de coeficientes de regresión.

caso Bivariadit

X 1 X X 2 = a N N ( μ 1 + σ 1 σ 2 ρ ( A − μ 2 ) , ( 1 − ρ 2 ) σ 1 2 ) . {\displaystyle X_{1}\mid X_{2}=a\ \sim \ {\mathcal {N}}\left(\mu _{1}+{\frac {\sigma _{1}}{\sigma _{2}}}\rho (a-\mu _{2}),\,(1-\rho ^{2})\sigma _{1}^{2}\right).,}

donde ρ {\displaystyle \rho } es el coeficiente de correlación entre X 1 {\displaystyle X_{1}} y X 2 {\displaystyle X_{2}} .,) , ( 1 ρ ρ 1 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)}

La esperanza condicional de X1 dado X2 es

E ⁡ ( X 1 ∣ X 2 = x 2 ) = ρ x 2 {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}}

y la varianza condicional es

var ⁡ ( X 1 ∣ X 2 = x 2 ) = 1 − ρ 2 ; {\displaystyle \operatorname {var} (X_{1}\mid X_{2}=x_{2})=1-\rho ^{2};}

por lo tanto la varianza condicional no depende de x2.,

La esperanza condicional de X1 dado que X2 es menor/mayor que z es::367

E ⁡ ( X 1 ∣ X 2 < z ) = − ρ, ϕ ( z ) F ( z ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=-\rho {\phi (z) \sobre \Phi (z)},} E ⁡ ( X 1 ∣ X 2 > z ) = ρ, ϕ ( z ) ( 1 − Φ ( z ) ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}>z)=\rho {\phi (z) \(1-\Phi (z))},}

donde la relación final que aquí se llama la inversa de Mills relación.,

E ⁡ ( X 1 ∣ X 2 < z ) = ρ E ( X 2 ∣ X 2 < z ) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=\rho E(X_{2}\mid X_{2}<z)} y, a continuación, utilizando las propiedades de la expectativa de una distribución normal truncada.

distribuciones Marginaleseditar

para obtener la distribución marginal sobre un subconjunto de variables aleatorias normales multivariantes, solo es necesario eliminar las variables irrelevantes (las variables que se quieren marginar) del vector medio y la matriz de covarianza., La prueba de esto se desprende de las definiciones de distribuciones normales multivariantes y álgebra lineal.,bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}}

which extracts the desired elements directly.,

B = = B T . {\displaystyle \mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}.}

Observe cómo la definición positiva de Σ implica que la varianza del producto escalar debe ser positiva.

una transformación afín de X como 2X no es lo mismo que la suma de dos realizaciones independientes de X.,

interpretación Geométricaeditar

ver también: Región de confianza

los contornos de equidensidad de una distribución normal multivariante no singular son elipsoides (es decir, transformaciones lineales de hiperesferas) centrados en la media. Por lo tanto, la distribución normal multivariante es un ejemplo de la clase de distribuciones elípticas. Las direcciones de los ejes principales de los elipsoides están dadas por los vectores propios de la matriz de covarianza Σ {\displaystyle {\boldsymbol {\Sigma }}} . Las longitudes relativas cuadradas de los ejes principales están dadas por los valores propios correspondientes.,

Si Σ = UΛUT = UΛ1/2 ( UΛ1/2)T es una composición propia donde las columnas de U son vectores propios unitarios y Λ es una matriz diagonal de los valores propios, entonces tenemos

X N N ( μ , Σ) X X μ μ + u Λ 1 / 2 N ( 0 , I) X X μ μ + U N (0 , Λ ) . {\displaystyle \mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\ffi \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\boldsymbol {\Lambda }}^{1/2}{\mathcal {N}}(0,\mathbf {I} )\ffi \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\mathcal {N}}(0,{\boldsymbol {\Lambda }}).,}

Además, U se puede elegir como una matriz de rotación, ya que invertir un eje no tiene ningún efecto sobre N(0, Λ), pero invertir una columna cambia el signo del determinante de U. La distribución N (μ, Σ) es en efecto N(0, I) escalado por Λ1/2, girado por U y traducido por μ.

por el contrario, cualquier elección de μ, matriz de Rango completo U y entradas diagonales positivas Λi produce una distribución normal multivariante no singular. Si cualquier Λi es cero y U es cuadrado, la matriz de covarianza resultante UΛUT es singular., Geométricamente esto significa que cada elipsoide de contorno es infinitamente delgado y tiene un volumen cero en el espacio n-dimensional, ya que al menos uno de los ejes principales tiene una longitud de cero; Este es el caso degenerado.

«el radio alrededor de la media verdadera en una variable aleatoria normal bivariada, reescrita en coordenadas polares (radio y ángulo), sigue una distribución de Hoyt.»

en una dimensión la probabilidad de encontrar una muestra de la distribución normal en el intervalo μ ± σ {\displaystyle \mu \pm \sigma } es aproximadamente 68.,27%, pero en dimensiones más altas la probabilidad de encontrar una muestra en la región de la elipse de desviación estándar es menor.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *