Multivariada distribuição normal

Probabilidade em diferentes domainsEdit

Superior: a probabilidade de um bivariada normal no domínio x sin ⁡ y − y cos ⁡ x > 1 {\displaystyle x\sin y-y\cos x>1} (azul regiões). Bottom: a probabilidade de um normal trivariado num domínio toroidal. Estes são computados pelo método numérico dos raios. Pontos negros são pontos de contorno do domínio calculado pelo método.,

Maior momentsEdit

ver artigo Principal: Isserlis teorema

O k-ordem de momentos de x é dado por

μ 1 , … , N ( x ) = d e f μ r 1 , … , r N ( x ) = d e f e ⁡ {\displaystyle \mu _{1,\ldots ,N}(\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ \mu _{r_{1},\ldots ,r_{N}}(\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\operatorname {E} \left}

onde r1 + r2 + ⋯ + rN = k.

O k-ordem central momentos são como segue

  1. Se k é ímpar, μ1, …, N(x − µ) = 0.,se k é mesmo com k = 2λ, então

μ 1,… , 2 λ ( x − µ ) = ∑ ( σ i j σ k ℓ ⋯ σ X Z ) {\displaystyle \mu _{1,\dots ,2\lambda }(\mathbf {x} -{\boldsymbol {\mu }})=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)} E ⁡ = E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ .,torname {E} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} .,\end{alinhado}}}

As covariâncias são então determinadas substituindo os termos da lista {\displaystyle } pelos termos correspondentes da lista que consistem em R1, depois em R2 twos, etc.. Para ilustrar isso, examine os seguintes 4º-a ordem de momento central de caso:

E ⁡ = 3 σ i i 2 E ⁡ = 3 σ i σ i j E ⁡ = σ i σ j j + 2 σ i j 2 E ⁡ = σ i σ j k + 2 σ i j σ i k E ⁡ = σ i j σ k n + ∑ i k σ j n + σ n σ j k ., {\displaystyle {\begin{alinhado}\operatorname {E} \left&=3\sigma _{ii}^{2}\\\operatorname {E} \left&=3\sigma _{ii}\sigma _{ij}\\\operatorname {E} \left&=\sigma _{ii}\sigma _{jj}+2\sigma _{ij}^{2}\\\operatorname {E} \left&=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}\\\operatorname {E} \left&=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{em}\sigma _{jk}.,\end{aligned}}}

Functions of a normal vectorEdit

If f (x) {\displaystyle f({\boldsymbol {x}}})} is a general scalar-valued function of a normal vector, its probability density function, cumulative distribution function, and inverse cumulative distribution function can be computed with the numerical method of ray-scanning (Matlab code).,dsymbol {x}}} é simplesmente o log da função de densidade de probabilidade:

ln ⁡ L ( x ) = − 1 2 {\displaystyle \ln L({\boldsymbol {x}})=-{\frac {1}{2}}\left} ,

O circularmente simétrica versão do noncentral caso complexo, onde z {\displaystyle {\boldsymbol {z}}} é um vetor de números complexos, seria

ln ⁡ L ( z ) = − ln ⁡ ( | Σ | ) − ( z − µ ) † Σ − 1 ( z − µ ) − k ln ⁡ ( π ) {\displaystyle \ln L({\boldsymbol {z}})=-\ln(|{\boldsymbol {\Sigma }}|\,)-({\boldsymbol {z}}-{\boldsymbol {\mu }})^{\dagger }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {z}}-{\boldsymbol {\mu }})-k\ln(\pi )}

eu.,e. Com a transposição conjugada (indicada por † {\displaystyle \dagger } ) substituindo a transposição normal (indicada por T {\displaystyle {}^{\rm {T}}}}). Isto é ligeiramente diferente do que no caso real, porque a versão circularmente simétrica da distribuição normal complexa tem uma forma ligeiramente diferente para a constante de normalização.

é utilizada uma notação semelhante para a regressão linear múltipla.

Uma vez que a probabilidade logarítmica de um vetor normal é uma forma quadrática do vetor normal, ele é distribuído como uma variável generalizada chi-ao quadrado.,ty }f(\mathbf {x} )\ln f(\mathbf {x} )\,d\mathbf {x} ,\\&={\frac {1}{2}}\ln \left(\left|\left(2\pi e\right){\boldsymbol {\Sigma }}\right|\right)={\frac {1}{2}}\ln \left(\left(2\pi e\right)^{k}\left|{\boldsymbol {\Sigma }}\right|\right)={\frac {k}{2}}\ln \left(2\pi e\right)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\right)={\frac {k}{2}}+{\frac {k}{2}}\ln \left(2\pi \right)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\right)\\\end{alinhado}}}

onde as barras indicam a matriz de determinante e k é a dimensionalidade do espaço vetorial.,L ( N 0 ‖ N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) + ( μ 1 − μ 0 ) T Σ 1 − 1 ( μ 1 − μ 0 ) − k + ln ⁡ | Σ 1 | | Σ 0 | } , {\displaystyle D_{\text{KL}}({\mathcal {N}}_{0}\|{\mathcal {N}}_{1})={1 \over 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)+\left({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0}\right)^{\rm {T}}{\boldsymbol {\Sigma }}_{1}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0})-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \|em{\boldsymbol {\Sigma }}_{0}|}\right\},}

onde k {\displaystyle k} é a dimensão do espaço vetorial.,

o logaritmo deve ser levado à base e uma vez que os dois termos que seguem o logaritmo são eles mesmos logaritmos base-e de expressões que são ou fatores da função densidade ou de outra forma surgem naturalmente. A equação, portanto, dá um resultado medido em nats. Dividindo toda a expressão acima por loge 2, Obtém-se a divergência em bits.

Quando µ 1 = µ 0 {\displaystyle {\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}} ,

D KL ( C N 0 ‖ C N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) − k + ln ⁡ | Σ 1 | | Σ 0 | } ., {\displaystyle D_{\text{KL}}({\mathcal {CN}}_{0}\|{\mathcal {CN}}_{1})={1 \over 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \|em{\boldsymbol {\Sigma }}_{0}|}\right\}.}

Mútuo informationEdit

I ( X ) = − 1 2 ln ⁡ | ρ 0 | , {\displaystyle I({\boldsymbol {X}})=-{1 \over 2}\ln |{\boldsymbol {\rho }}_{0}|,}

Em bivariada caso, a expressão para a informação mútua é:

I ( x ; y ) = − 1 2 ln ⁡ ( 1 − ρ 2 ) . {\displaystyle I(x;y)=-{1 \over 2}\ln (1-\rho ^{2}).,}

Conjunta normalityEdit

Normalmente distribuídos e independentEdit

Duas variáveis aleatórias normalmente distribuídas, não precisa ser em conjunto bivariadas normalEdit

Correlações e independenceEdit

Em geral, variáveis aleatórias pode ser mas não correlacionada estatisticamente dependentes. Mas se um vetor Aleatório tem uma distribuição normal multivariada, então quaisquer dois ou mais de seus componentes que não estão correlacionados são independentes. Isto implica que quaisquer dois ou mais de seus componentes que são independentes em pares são independentes., Mas, como indicado acima, não é verdade que duas variáveis aleatórias que são (separadamente, marginalmente) normalmente distribuídas e não correlacionadas são independentes.,>{\boldsymbol {\Sigma }}_{22}\end{bmatrix}}{\text{ com tamanhos }}{\begin{bmatrix}q\vezes q&q\vezes (N-q)\\(N-q)\vezes q&(N-q)\vezes (N-q)\end{bmatrix}}}

em seguida, a distribuição condicional de x1 em x2 = a é normal multivariada (x1 | x2 = a) ~ N(μ, Σ), onde

μ = μ 1 + Σ 12 Σ 22 − 1 ( a − μ 2 ) {\displaystyle {\bar {\boldsymbol {\mu }}}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)}

e matriz de covariância

Σ = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ., {\displaystyle {\overline {\boldsymbol {\Sigma }}}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}. esta matriz é o complemento Schur de Σ22 Em Σ. Isto significa que para calcular a matriz de covariância condicional, inverte-se a matriz de covariância global, cai as linhas e colunas correspondentes às variáveis condicionadas, e então inverte-se de volta para obter a matriz de covariância condicional., Aqui Σ 22 − 1 {\displaystyle {\boldsymbol {\Sigma }}_{22}^{-1}} é a inversa generalizada de Σ 22 {\displaystyle {\boldsymbol {\Sigma }}_{22}} .

A matriz Σ12Σ22 – 1 é conhecida como a matriz dos coeficientes de regressão.

caseEdit de Bivariato

X 1 ∣ X 2 = a ∼ n ( μ 1 + σ 1 σ 2 ρ ( A − μ 2), (1 − ρ 2 ) σ 1 2 ) . {\displaystyle X_{1}\mid X_{2}=a\ \sim \ {\mathcal {N}}\left(\mu _{1}+{\frac {\sigma _{1}}{\sigma _{2}}}\rho (uma-\mu _{2}),\,(1-\rho ^{2})\sigma _{1}^{2}\right).,}

onde ρ {\displaystyle \rho } é o coeficiente de correlação entre X 1 {\displaystyle X_{1}} e X 2 {\displaystyle X_{2}} .,) , ( 1 ρ ρ 1 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)}

A expectativa condicional de X1 X2 é dada

E ⁡ ( X 1 ∣ X 2 = x 2 ) = ρ x 2 {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}}

e a variância condicional é

var ⁡ ( X 1 ∣ X 2 = x 2 ) = 1 − ρ 2 ; {\displaystyle \operatorname {var} (X_{1}\mid X_{2}=x_{2})=1-\rho ^{2};}

assim, a variância condicional não depende de x2.,

A expectativa condicional de X1, dado que X2 for menor/maior do que z é::367

E ⁡ ( X 1 ∣ X 2 < z ) = − ρ ϕ ( z ) Φ ( z ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=-\rho {\phi (z) \mais \Phi (z)},} E ⁡ ( X 1 ∣ X 2 > z ) = ρ ϕ ( z ) ( 1 − Φ ( z ) ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}>z)=\rho {\phi (z) \over (1-\Phi (z))},}

, onde o final proporção aqui é chamado a inversa de Mills relação.,

E ⁡ ( X 1 ∣ X 2 < z ) = ρ E ( X 2 ∣ X 2 < z ) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=\rho E(X_{2}\mid X_{2}<z)} e, em seguida, usando as propriedades da expectativa de uma distribuição normal truncada.

distribuições marginais edit

para obter a distribuição marginal sobre um subconjunto de variáveis aleatórias normais multivariadas, só é necessário retirar as variáveis irrelevantes (as variáveis que se quer marginalizar) do vetor médio e da matriz de covariância., The proof for this follows from the definitions of multivariate normal distributions and linear algebra.,bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}}

which extracts the desired elements directly.,

B = = B T. {\displaystyle \mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}.}

Observe como a definição positiva de Σ implica que a variância do produto Ponto deve ser positiva.

uma transformação afim de X TAL COMO 2X não é a mesma que a soma de duas realizações independentes de X.,

Geometric interpretationEdit

Ver também: Confidence region

The equidensity contours of a non-singular multivariate normal distribution are ellipsoids (i.e. linear transformations of hyperspheres) centered at the mean. Assim, a distribuição normal multivariada é um exemplo da classe de distribuições elípticas. As direcções dos eixos principais dos elipsóides são dadas pelos autovectores da matriz de covariância Σ {\displaystyle {\boldsymbol {\Sigma }}}. Os comprimentos relativos ao quadrado dos eixos principais são dados pelos autovalores correspondentes.,

Se Σ = UΛUT = UΛ1/2(UΛ1/2)T é um eigendecomposition onde as colunas de U são autovetores unitī arios e Λ é uma matriz diagonal de autovalores, então temos

X ∼ N ( μ , Σ ) ⟺ X ∼ µ + U Λ 1 / 2 N ( 0 , I ) ⟺ X ∼ µ + U N ( 0 , Λ ) . {\displaystyle \mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\boldsymbol {\Lambda }}^{1/2}{\mathcal {N}}(0,\mathbf {I} )\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\mathcal {N}}(0,{\boldsymbol {\Lambda }}).,}

além disso, U pode ser escolhido para ser uma matriz de rotação, como inverter um eixo não tem qualquer efeito sobre N(0, Λ), mas inverter uma coluna muda o sinal do determinante de U. A distribuição N (μ, Σ) é de efeito N(0, I) escalado por Λ1/2, rodado por U e traduzido por μ.

inversamente, qualquer escolha de μ, matriz de rank completo U, e entradas diagonais positivas Λi produz uma distribuição normal multivariada não singular. Se qualquer Λi é zero e U é quadrado, a matriz de covariância resultante UΛUT é singular., Geometricamente isto significa que cada elipsóide do contorno é infinitamente fino e tem volume zero no espaço n-dimensional, como pelo menos um dos eixos principais tem comprimento de zero; este é o caso degenerado.

“o raio em torno da média verdadeira numa variável aleatória normal bivariada, re-escrita em coordenadas polares (raio e ângulo), segue uma distribuição Hoyt.”

numa dimensão a probabilidade de encontrar uma amostra da distribuição normal no intervalo μ ± σ {\displaystyle \mu \pm \ sigma } é de aproximadamente 68.,27%, mas em dimensões mais altas a probabilidade de encontrar uma amostra na região da elipse de desvio padrão é menor.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *