Distribuzione normale multivariata

Probabilità in diverse domainsEdit

Top: la probabilità di una normale bivariata nel dominio peccato x la ⁡ y − y cos ⁡ x > 1 {\displaystyle x\sin y-y\cos x>1}) (blu-regioni). In basso: la probabilità di una normale trivariata in un dominio toroidale. Questi sono calcolati dal metodo numerico dei raggi. I punti neri sono punti di confine del dominio calcolati dal metodo.,

Superiore momentsEdit

articolo Principale: Isserlis teorema

Il kth-ordine dei momenti di x è dato da

µ 1 , … , N ( x ) = d e f m r 1 , … , r N ( x ) = a d i f e ⁡ {\displaystyle \mu _{1,\ldots ,N}(\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ \mu _{r_{1},\ldots ,r_{N}}(\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\operatorname {E} \left}

dove r1 + r2 + ⋯ + rN = k.

Il kth-ordine di momenti centrali sono come segue

  1. Se k è dispari, μ1, …, N(x − µ) = 0.,
  2. If k is even with k = 2λ, then

μ 1 , … , 2 λ ( x − μ ) = ∑ ( σ i j σ k ℓ ⋯ σ X Z ) {\displaystyle \mu _{1,\dots ,2\lambda }(\mathbf {x} -{\boldsymbol {\mu }})=\sum \left(\sigma _{ij}\sigma _{k\ell }\cdots \sigma _{XZ}\right)} E ⁡ = E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ + E ⁡ E ⁡ E ⁡ .,torname {E} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} \\&{}+\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} +\operatorname {E} \operatorname {E} \operatorname {E} .,\ end {aligned}}}

Le covarianze vengono quindi determinate sostituendo i termini della lista {\displaystyle } con i termini corrispondenti della lista composta da quelli r1, quindi da due r2, ecc.. Per illustrare questo, esaminare il seguente caso del momento centrale del 4 ° ordine:

E = = 3 σ i i 2 E = = 3 σ i i σ i j E = = σ i i σ j j + 2 σ i j 2 E = = σ i i σ j k + 2 σ i j σ i k E = = σ i j σ k n + σ i k σ j n + σ i n σ j k ., {\displaystyle {\begin{aligned}\operatorname {E} \left&=3\sigma _{ii}^{2}\\\operatorname {E} \left&=3\sigma _{ii}\sigma _{ij}\\\operatorname {E} \left&=\sigma _{ii}\sigma _{jj}+2\sigma _{ij}^{2}\\\operatorname {E} \left&=\sigma _{ii}\sigma _{jk}+2\sigma _{ij}\sigma _{ik}\\\operatorname {E} \left&=\sigma _{ij}\sigma _{kn}+\sigma _{ik}\sigma _{jn}+\sigma _{in}\sigma _{jk}.,\end{aligned}}}

le Funzioni di un normale vectorEdit

Se f ( x ) {\displaystyle f({\boldsymbol {x}})} è una generale funzione a valori scalari di un vettore normale, la sua funzione di densità di probabilità, funzione di ripartizione e funzione di distribuzione cumulativa inversa può essere calcolata con il metodo numerico di ray-scansione (codice di Matlab).,dsymbol {x}}} è semplicemente il log della funzione di densità di probabilità:

ln ⁡ L ( x ) = − 1 2 {\displaystyle \ln L({\boldsymbol {x}})=-{\frac {1}{2}}\left} ,

Il circolarmente versione simmetrica del noncentral caso complesso, dove z {\displaystyle {\boldsymbol {z}}} ‘ e un vettore di numeri complessi, sarebbe

ln ⁡ L ( z ) = − ln ⁡ ( | S | ) − ( z − μ ) † Σ − 1 ( z − μ ) − k ln ⁡ ( π ) {\displaystyle \ln L({\boldsymbol {z}})=-\ln(|{\boldsymbol {\Sigma }}|\,)-({\boldsymbol {z}}-{\boldsymbol {\mu }})^{\dagger }{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {z}}-{\boldsymbol {\mu }})-k\ln(\pi )}

io.,e. con la trasposizione coniugata (indicata da † {\displaystyle \dagger } ) che sostituisce la trasposizione normale (indicata da T {\displaystyle {}^{\rm {T}}} ). Questo è leggermente diverso rispetto al caso reale, perché la versione circolarmente simmetrica della distribuzione normale complessa ha una forma leggermente diversa per la costante di normalizzazione.

Una notazione simile viene utilizzata per la regressione lineare multipla.

Poiché la probabilità di log di un vettore normale è una forma quadratica del vettore normale, viene distribuita come variabile chi-quadrato generalizzata.,ty }f(\mathbf {x} )\ln f(\mathbf {x} )\,d\mathbf {x} ,\\&={\frac {1}{2}}\ln \left(\left|\left(2\pi e\right){\boldsymbol {\Sigma }}\right|\right)={\frac {1}{2}}\ln \left(\left(2\pi e\right)^{k}\left|{\boldsymbol {\Sigma }}\right|\right)={\frac {k}{2}}\ln \left(2\pi e\right)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\right)={\frac {k}{2}}+{\frac {k}{2}}\ln \left(2\pi \right)+{\frac {1}{2}}\ln \left(\left|{\boldsymbol {\Sigma }}\right|\right)\\\end{aligned}}}

in cui le barre indicano la matrice determinante e k è la tridimensionalità dello spazio vettoriale.,L ( N 0 ‖ N 1 ) = 1 2 { tr ⁡ ( Σ 1 − 1 Σ 0 ) + ( µ 1 − µ 0 ) T Σ 1 − 1 ( µ 1 − µ 0 ) − k + ln ⁡ | S 1 | | Σ 0 | } , {\displaystyle D_{\text{KL}}({\mathcal {N}}_{0}\|{\mathcal {N}}_{1})={1 \oltre 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)+\left({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0}\right)^{\rm {T}}{\boldsymbol {\Sigma }}_{1}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{0})-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\},}

dove k {\displaystyle k} è la dimensione di uno spazio vettoriale.,

Il logaritmo deve essere portato alla base e poiché i due termini che seguono il logaritmo sono essi stessi logaritmi di base-e di espressioni che sono fattori della funzione di densità o altrimenti sorgono naturalmente. L’equazione dà quindi un risultato misurato in nats. Dividendo l’intera espressione sopra per loge 2 si ottiene la divergenza in bit.

quando μ 1 = μ 0 {\displaystyle {\boldsymbol {\mu }} _{1}={\boldsymbol {\mu }}_{0}} ,

D KL (C N 0 C C N 1) = 1 2 { tr tr ( Σ 1 − 1 Σ 0) − k + ln ⁡ | Σ 1 | | Σ 0 | } ., {\displaystyle D_{\text{KL}}({\mathcal {CN}}_{0}\|{\mathcal {CN}}_{1})={1 \oltre 2}\left\{\operatorname {tr} \left({\boldsymbol {\Sigma }}_{1}^{-1}{\boldsymbol {\Sigma }}_{0}\right)-k+\ln {|{\boldsymbol {\Sigma }}_{1}| \over |{\boldsymbol {\Sigma }}_{0}|}\right\}.}

Informazioni mutualimodiFica

I (X) = − 1 2 ln 0 | ρ 0 | , {\displaystyle I({\boldsymbol {X}})=-{1 \over 2} \ ln / {\boldsymbol {\rho }}_{0}|,}

Nel caso bivariato l’espressione per l’informazione reciproca è:

I ( x ; y ) = − 1 2 ln ⁡ ( 1 − ρ 2 ) . {\displaystyle I(x;y)=-{1 \over 2}\ln (1-\rho ^{2}).,}

Joint normalityEdit

Normalmente distribuito e indipendentEdit

Due variabili casuali normalmente distribuite non devono essere normalizzate congiuntamente Edit

Correlazioni e independenceEdit

In generale, le variabili casuali possono essere non correlate ma statisticamente dipendenti. Ma se un vettore casuale ha una distribuzione normale multivariata, due o più dei suoi componenti non correlati sono indipendenti. Ciò implica che due o più dei suoi componenti che sono indipendenti a coppie sono indipendenti., Ma, come sottolineato appena sopra, non è vero che due variabili casuali che sono (separatamente, marginalmente) normalmente distribuite e non correlate sono indipendenti.,>{\boldsymbol {\Sigma }}_{22}\end{bmatrix}}{\text{ con dimensioni }}{\begin{bmatrix}q\times q&q\times (N-q)\\(N-q)\times q&(N-q)\times (N-q)\end{bmatrix}}}

allora la distribuzione di x1 condizionato x2 = a è normale multivariata (x1 | x2 = a) ~ N(µ, Σ) dove

µ = µ 1 + Σ Σ 12 22 − 1 ( a − µ 2 ) {\displaystyle {\bar {\boldsymbol {\mu }}}={\boldsymbol {\mu }}_{1}+{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}\left(\mathbf {a} -{\boldsymbol {\mu }}_{2}\right)}

e la matrice di covarianza

Σ = Σ 11 − Σ Σ 12 22 − 1 Σ 21 ., {\displaystyle {\overline {\boldsymbol {\Sigma }}}={\boldsymbol {\Sigma }}_{11}-{\boldsymbol {\Sigma }}_{12}{\boldsymbol {\Sigma }}_{22}^{-1}{\boldsymbol {\Sigma }}_{21}.}

Questa matrice è il complemento Schur di Σ22 in Σ. Ciò significa che per calcolare la matrice di covarianza condizionale, si inverte la matrice di covarianza complessiva, si eliminano le righe e le colonne corrispondenti alle variabili condizionate e quindi si inverte di nuovo per ottenere la matrice di covarianza condizionale., Qui Σ 22-1 {\displaystyle {\boldsymbol {\Sigma }}_{22}^{-1}} è l’inverso generalizzato di Σ 22 {\displaystyle {\boldsymbol {\Sigma}} _{22}}.

La matrice Σ12Σ22−1 è conosciuta come la matrice dei coefficienti di regressione.

Caso bivariatomodifica

X 1 X X 2 = a N N ( μ 1 + σ 1 σ 2 ρ ( a − μ 2 ) , ( 1 − ρ 2 ) σ 1 2 ) . {\displaystyle X_{1}\mid X_{2}=a\ \sim \ {\mathcal {N}}\left(\mu _{1}+{\frac {\sigma _{1}}{\sigma _{2}}}\rho (a-\mu _{2}),\,(1-\rho ^{2})\sigma _{1}^{2}\right).,}

dove ρ {\displaystyle \rho } è il coefficiente di correlazione tra X 1 {\displaystyle X_{1}} e X 2 {\displaystyle X_{2}} .,) , ( 1 ρ ρ 1 ) ) {\displaystyle {\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}\sim {\mathcal {N}}\left({\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1&\rho \\\rho &1\end{pmatrix}}\right)}

Il condizionale in attesa di X1 X2 è dato

E ⁡ ( X 1 ∣ X 2 = x 2 ) = ρ x 2 {\displaystyle \operatorname {E} (X_{1}\mid X_{2}=x_{2})=\rho x_{2}}

e la varianza condizionale è

var ⁡ ( X 1 ∣ X 2 = x 2 ) = 1 − ρ 2 ; {\displaystyle \operatorname {var} (X_{1}\mid X_{2}=x_{2})=1-\rho ^{2};}

così, la varianza condizionale non dipende da x2.,

Il condizionale in attesa di X1 dato che X2 è più piccolo/più grande rispetto a z::367

E ⁡ ( X 1 ∣ X 2 < z ) = − ρ ϕ ( z ) F ( z) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=-\rho {\phi (z) \over \Phi (z)},} E ⁡ ( X 1 ∣ X 2 > z ) = ρ ϕ ( z ) ( 1 − Φ ( z ) ) , {\displaystyle \operatorname {E} (X_{1}\mid X_{2}>z)=\rho {\phi (z) \(1-\Phi (z))},}

in cui il rapporto finale qui è chiamato l’inverso Mills rapporto.,

E ⁡ ( X 1 ∣ X 2 < z ) = ρ E ( X 2 ∣ X 2 < z ) {\displaystyle \operatorname {E} (X_{1}\mid X_{2}<z)=\rho E(X_{2}\mid X_{2}<z)} e quindi utilizzando le proprietà delle aspettative di un tronco di distribuzione normale.

Distribuzioni marginalimodiFica

Per ottenere la distribuzione marginale su un sottoinsieme di variabili casuali normali multivariate, è sufficiente eliminare le variabili irrilevanti (le variabili che si vogliono emarginare) dal vettore medio e dalla matrice di covarianza., La dimostrazione di ciò deriva dalle definizioni di distribuzioni normali multivariate e algebra lineare.,bmatrix}1&0&0&0&0&\ldots &0\\0&1&0&0&0&\ldots &0\\0&0&0&1&0&\ldots &0\end{bmatrix}}}

which extracts the desired elements directly.,

B = = b T . {\displaystyle \mathbf {B} ={\begin{bmatrix}b_{1}&b_{2}&\ldots &b_{n}\end{bmatrix}}=\mathbf {b} ^{\rm {T}}.}

Osserva come la definizione positiva di Σ implica che la varianza del prodotto dot deve essere positiva.

Una trasformazione affine di X come 2X non è la stessa della somma di due realizzazioni indipendenti di X.,

Interpretazione geometricamodiFica

Vedi anche: Confidence region

I contorni di equidensità di una distribuzione normale multivariata non singolare sono ellissoidi (cioè trasformazioni lineari di ipersfere) centrati alla media. Quindi la distribuzione normale multivariata è un esempio della classe di distribuzioni ellittiche. Le direzioni degli assi principali degli ellissoidi sono date dagli autovettori della matrice di covarianza Σ {\displaystyle {\boldsymbol {\Sigma }}} . Le lunghezze relative al quadrato degli assi principali sono date dagli autovalori corrispondenti.,

Se Σ = UΛUT = UΛ1/2(UΛ1/2)T è un’autovalutazione in cui le colonne di U sono autovettori unitari e Λ è una matrice diagonale degli autovalori, allora abbiamo

X N N ( μ , Σ) X X μ μ + U Λ 1 / 2 N ( 0 , I) X X μ μ + U N ( 0 , Λ ) . {\displaystyle \mathbf {X} \ \sim {\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\boldsymbol {\Lambda }}^{1/2}{\mathcal {N}}(0,\mathbf {I} )\iff \mathbf {X} \ \sim {\boldsymbol {\mu }}+\mathbf {U} {\mathcal {N}}(0,{\boldsymbol {\Lambda }}).,}

Inoltre, U può essere scelta come matrice di rotazione, poiché l’inversione di un asse non ha alcun effetto su N(0, Λ), ma l’inversione di una colonna cambia il segno del determinante di U. La distribuzione N (μ, Σ) è in effetti N(0, I) ridimensionata da Λ1/2, ruotata da U e tradotta da μ.

Al contrario, qualsiasi scelta di μ, matrice di rango completo U e voci diagonali positive Λi produce una distribuzione normale multivariata non singolare. Se un Λi è zero e U è quadrato, la matrice di covarianza risultante UΛUT è singolare., Geometricamente ciò significa che ogni ellissoide di contorno è infinitamente sottile e ha volume zero nello spazio n-dimensionale, poiché almeno uno degli assi principali ha lunghezza pari a zero; questo è il caso degenerato.

“Il raggio attorno alla media reale in una variabile casuale normale bivariata, riscritta in coordinate polari (raggio e angolo), segue una distribuzione di Hoyt.”

In una dimensione la probabilità di trovare un campione della distribuzione normale nell’intervallo μ ± σ {\displaystyle \mu \pm \sigma } è di circa 68.,27%, ma in dimensioni più elevate la probabilità di trovare un campione nella regione dell’ellisse di deviazione standard è inferiore.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *