Distribution normale multivariée

probabilité dans différents domainsEdit

Top: la probabilité d’une normale bivariée dans le domaine x sin y y − y cos Co x > 1 {\displaystyle X\sin y-y\cos x>1} (régions bleues). En bas: la probabilité d’une normale trivariée dans un domaine toroïdal. Ceux-ci sont calculés par la méthode numérique des rayons. Les points noirs sont des points limites du domaine calculé par la méthode.,

moments Supérieursmodifier

Article principal: théorème D’Isserlis

Les moments d’ordre K DE x sont donnés par

μ 1, μ , N ( x ) = d e f μ r 1,…, r n ( x ) = d E f E {{\displaystyle \mu _{1,\ldots ,N}(\mathbf {x}) \ {\stackrel {\mathrm {def}} { = }} \ \mu _{R_{1},\ldots ,r_ {n}}(\mathbf {x}) \ {\stackrel {\mathrm {Def}} {=}} \operatorname {e} \left}

où R1 + R2 + RN + RN = k.

Les moments centraux du kème ordre sont les suivants

  1. Si K est impair, μ1, μ, N(X-μ) = 0.,
  2. Si k est de même avec k = 2λ, puis

μ 1 , … , 2 λ ( x − μ ) = ∑ ( σ i j σ k ℓ ⋯ σ X Z ) {\displaystyle \mu _{1,\dots ,2\lambda }(\mathbf {x} -{\boldsymbol {\mu }})=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)} E ⁡ = E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + E ⁡ ET ⁡ ET ⁡ + ET ⁡ ET ⁡ ET ⁡ .,torname {Et} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {Et} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {Et} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {Et} .,\end{aligné}}}

Les covariances sont déterminés en remplaçant les termes de la liste {\displaystyle } par les termes correspondants de la liste constituée par r1, alors r2 deux, etc.. Pour illustrer cela, examinez le cas de moment central du 4e ordre suivant:

E ⁡ = 3 σ I I σ I j E ⁡ = σ i I σ J J + 2 σ I J 2 E ⁡ = σ i I σ J k + 2 σ i J σ I k E ⁡ = σ i J σ K N + σ i k σ j N + σ i N σ j K., {\displaystyle {\begin{aligné}\operatorname {E} \left&=3\sigma _{ii}^{2}\\\operatorname {E} \left&=3\sigma _{ii}\sigma _{ij}\\\operatorname {Et} \left&=\sigma _{ii}\sigma _{jj}+2\sigma _{ij}^{2}\\\operatorname {E} \left&=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}\\\operatorname {Et} \left&=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{en}\sigma _{jk}.,\end{aligned}}}

Functions of a normal vectorEdit

Si f ( x) {\displaystyle f ({\boldsymbol {x}})} est une fonction scalaire générale d’un vecteur normal, sa fonction de densité de probabilité, sa fonction de distribution cumulative et sa fonction de distribution cumulative inverse peuvent être calculées avec la méthode numérique de balayage de rayons (code Matlab).,dsymbol {x}}} est simplement le log de la fonction de densité de probabilité:

ln L L ( x ) = − 1 2 {\displaystyle \LN l({\boldsymbol {x}})=-{\frac {1}{2}}\left} ,

la version circulairement symétrique du cas complexe Non central, où z {\displaystyle {\boldsymbol {z}}} est un vecteur de nombres complexes, serait

ln L L ( Z ) = − ln ⁡ (|σ | ) − ( z − μ ) † σ − 1 ( z − μ ) − k ln l ( π ) {\displaystyle \LN l({\boldsymbol {z}})=-\LN(|{\boldsymbol {\Sigma }}|\,)-({\il s’agit d’un jeu de mot-clé qui permet de créer un jeu de mot-clé qui permet de créer un jeu de mot-clé.,e. avec la transposition conjuguée (indiquée par † {\displaystyle \dagger } ) remplaçant la transposition normale (indiquée par T {\displaystyle {}^{\rm {T}}} ). Ceci est légèrement différent que dans le cas réel, car la version circulairement symétrique de la distribution normale complexe a une forme légèrement différente pour la constante de normalisation.

une notation similaire est utilisée pour la régression linéaire multiple.

étant donné que la probabilité logarithmique d’un vecteur normal est une forme quadratique du vecteur normal, elle est distribuée comme une variable chi-carré généralisée.,ty }f(\mathbf {x} )\ln f(\mathbf {x} )\,d\mathbf {x} ,\\&={\frac {1}{2}}\ln \left(\left|\left(2\pi e\right){\boldsymbol {\Sigma }}\right|\right)={\frac {1}{2}}\ln \left(\left(2\pi e\right)^{k}\left|{\boldsymbol {\Sigma }}\right|\right)={\frac {k}{2}}\ln \left(2\pi e\right)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\right)={\frac {k}{2}}+{\frac {k}{2}}\ln \left(2\pi \right)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\right)\\\end{aligné}}}

où les bars désigner la matrice de déterminant et k est la dimension de l’espace vectoriel.,L ( N 0 ‖ N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) + ( μ 1 − μ 0 ) T Σ 1 − 1 ( μ 1 − μ 0 ) − k + ln ⁡ | Σ 1 | | Σ 0 | } , {\displaystyle D_{\text{KL}}({\mathcal {N}}_{0}\|{\mathcal {N}}_{1})={1 \2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)+\left({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0}\right)^{\rm {T}}{\boldsymbol {\Sigma }}_{1}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0})-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\},}

où k {\displaystyle k} est la dimension de l’espace vectoriel.,

le logarithme doit être pris en base e puisque les deux termes qui suivent le logarithme sont eux-mêmes des logarithmes de base-e d’expressions qui sont soit des facteurs de la fonction de densité, soit surgissent naturellement. L’équation donne donc un résultat mesuré en nats. Diviser l’expression entière ci-dessus par loge 2 donne la divergence en bits.

Lorsque μ 1 = μ 0 {\displaystyle {\boldsymbol {\mu }}_{1}={\boldsymbol {\mu }}_{0}} ,

D KL ( C N 0 ‖ C N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) − k + ln ⁡ | Σ 1 | | Σ 0 | } ., {\displaystyle D_{\text{KL}}({\mathcal {CN}}_{0}\|{\mathcal {CN}}_{1})={1 \2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\}.}

Mutuelle informationEdit

I ( X ) = − 1 2 ln ⁡ | ρ 0 | , {\displaystyle I({\boldsymbol {X}})=-{1 \over 2}\ln |{\boldsymbol {\rho }}_{0}|,}

Dans le bivariée cas l’expression de l’information mutuelle est:

I ( x ; y ) = − 1 2 ln ⁡ ( 1 − ρ 2 ) . {\displaystyle I(x;y)=-{1 \over 2}\ln(1-\rho ^{2}).,}

Joint normalityEdit

Normally distributed and independentEdit

deux variables aléatoires normalement distribuées n’ont pas besoin d’être conjointement bivariées normalEdit

corrélations et independencedit

en général, les variables aléatoires peuvent être non corrélées mais statistiquement dépendantes. Mais si un vecteur aléatoire a une distribution normale multivariée, alors deux ou plusieurs de ses composants non corrélés sont indépendants. Cela implique que deux ou plusieurs de ses composants indépendants par paire sont indépendants., Mais, comme indiqué ci-dessus, il n’est pas vrai que deux variables aléatoires qui sont (séparément, marginalement) normalement distribuées et non corrélées sont indépendantes.,>{\boldsymbol {\Sigma }}_{22}\end{bmatrix}}{\text{ avec des tailles }}{\begin{bmatrix}q\times q&q\times (N-q)\\(N-q)\times q&(N-q)\times (N-q)\end{bmatrix}}}

ensuite, la distribution conditionnelle de x1 à x2 = a est normale multivariée (x1 | x2 = a) ~ N(μ, Σ) où

μ = μ 1 + Σ 12 Σ 22 − 1 ( un − μ 2 ) {\displaystyle {\bar {\boldsymbol {\mu }}}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)}

et de matrice de covariance

Σ = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ., {\displaystyle {\overline {\boldsymbol {\Sigma }}}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.}

cette matrice est le complément de Schur de Σ22 Dans Σ. Cela signifie que pour calculer la matrice de covariance conditionnelle, on inverse la matrice de covariance globale, supprime les lignes et les colonnes correspondant aux variables conditionnées, puis on inverse pour obtenir la matrice de covariance conditionnelle., Ici Σ 22 − 1 {\displaystyle {\boldsymbol {\Sigma }}_{22}^{-1}} est l’inverse généralisée de Σ 22 {\displaystyle {\boldsymbol {\Sigma }}_{22}} .

la matrice Σ12Σ22−1 est connue comme la matrice des coefficients de régression.

cas à Bivariationmodifier

X 1 ∣ X 2 = a N N ( μ 1 + σ 1 σ 2 ρ ( A − μ 2 ) , ( 1 − ρ 2 ) σ 1 2 ) . {\displaystyle X_{1}\mid X_{2}=a\ \sim \ {\mathcal {N}}\left(\mu _{1}+{\frac {\sigma _{1}}{\sigma _{2}}}\rho (a-\mu _{2}),\,(1-\rho ^{2})\sigma _{1}^{2}\right).,}

où ρ {\displaystyle \rho } est le coefficient de corrélation entre X 1 {\displaystyle X_{1}} et X 2 {\displaystyle X_{2}} .,) , ( 1 ρ ρ 1 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)}

L’espérance conditionnelle de X1 donné X2

E ⁡ ( X 1 ∣ X 2 = x 2 ) = ρ x 2 {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}}

et la variance conditionnelle est

var ⁡ ( X 1 ∣ X 2 = x 2 ) = 1 − ρ 2 ; {\displaystyle \operatorname {var} (X_{1}\mid X_{2}=x_{2})=1-\rho ^{2};}

donc la variance conditionnelle ne dépend pas de x2.,

L’espérance conditionnelle de X1 étant donné que X2 est plus petit/plus grand que z est::367

E ⁡ ( X 1 ∣ X 2 < z ) = − ρ ϕ ( z ) Φ ( z ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=-\rho {\phi (z) \over \Phi (z)},} E ⁡ ( X 1 ∣ X 2 > z ) = ρ ϕ ( z ) ( 1 − Φ ( z ) ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}>z)=\rho {\phi (z) \over (1-\Phi (z))},}

où le ratio final est appelé ici l’inverse du ratio de Mills.,

E ⁡ ( X 1 ∣ X 2 < z ) = ρ E ( X 2 ∣ X 2 < z ) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=\rho E(X_{2}\mid X_{2}<z)}, puis en utilisant les propriétés de l’hypothèse d’une distribution normale tronquée.

distributionsEdit Marginal

pour obtenir la distribution marginale sur un sous-ensemble de variables aléatoires normales multivariées, il suffit de supprimer les variables non pertinentes (les variables que l’on veut marginaliser) du vecteur moyen et de la matrice de covariance., La preuve en découle des définitions des distributions normales multivariées et de l’algèbre linéaire.,bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}}

which extracts the desired elements directly.,

B = = B T. {\displaystyle \mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}.}

observez comment la définition positive de Σ implique que la variance du produit dot doit être positive.

Une transformation affine de X telle que 2X n’est pas la même que la somme de deux réalisations indépendantes de X.,

interprétation Geometriquedit

Voir aussi: Région de confiance

les contours d’équidensité d’une distribution normale multivariée non singulière sont des ellipsoïdes (c’est-à-dire des transformations linéaires d’hypersphères) centrés sur la moyenne. Par conséquent, la distribution normale multivariée est un exemple de la classe des distributions elliptiques. Les directions des axes principaux des ellipsoïdes sont données par les vecteurs propres de la matrice de covariance Σ {\displaystyle {\boldsymbol {\Sigma }}} . Les longueurs relatives au carré des axes principaux sont données par les valeurs propres correspondantes.,

Si Σ = UΛUT = UΛ1/2(UΛ1/2)T est une composition propre où les colonnes de U sont des vecteurs propres unitaires et Λ est une matrice diagonale des valeurs propres, alors on a

X ∼ N ( μ , Σ) X X X μ + U Λ 1 / 2 N ( 0 , I) X X ∼ μ + U N ( 0 , Λ ) . {\displaystyle \mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\boldsymbol {\Lambda }}^{1/2}{\mathcal {N}}(0,\mathbf {I} )\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\mathcal {N}}(0,{\boldsymbol {\Lambda }}).,}

de Plus, U peut être choisi comme une matrice de rotation, car inverser un axe n’a aucun effet sur N(0, Λ), mais inverser une colonne change le signe du déterminant de U. La distribution N (μ, Σ) est en effet N(0, I) mise à l’échelle par Λ1/2, Mise en rotation par U et traduite par μ.

inversement, tout choix de μ, De La matrice de rang complet U et des entrées diagonales positives Λi donne une distribution normale multivariée non singulière. Si tout Λi est nul et U est carré, la matrice de covariance résultante UΛUT est singulière., Géométriquement, cela signifie que chaque ellipsoïde de contour est infiniment mince et a un volume nul dans l’espace à n dimensions, car au moins un des axes principaux a une longueur nulle; c’est le cas dégénéré.

« Le rayon autour de la vraie moyenne dans une variable aléatoire normale bivariée, réécrit en coordonnées polaires (rayon et angle), suit une distribution de Hoyt. »

Dans une dimension, la probabilité de trouver un échantillon de la distribution normale dans l’intervalle μ ± σ {\displaystyle \mu \pm \sigma } est d’environ 68.,27%, mais dans les dimensions plus élevées, la probabilité de trouver un échantillon dans la région de l’ellipse d’écart-type est plus faible.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *