Analýza hlavných komponentov

z Wikipédie, slobodnej encyklopédie
Prejsť na: navigácia, hľadanie
Analýza hlavných komponentov pri mnohorozmernom normálnom rozdelení so stredom v bode (1, 3). Zobrazené vektoryvlastné vektory kovariančnej matici.

Analýza hlavných komponentov (ang. principal component analysis, skrátene PCA) je matematická štatistická metóda, ktorá využíva ortogonálnu transformáciu na to, aby previedla prvky množiny pozorovaní, u ktorých je možné, že sú korelované, na prvky takej množiny hodnôt, ktoré sú lineárne nekorelované. Tieto sa potom označujú ako hlavné komponenty. Pri analýze hlavných komponentov ide teda o to, že hľadáme takú množinu lineárnych kombinácií pôvodných premenných (pozorovaní), ktorá zachováva čo najväčšie množstvo informácií o pôvodných premenných (pozorovaniach) a zároveň jej dimenzia bude menšia alebo nanajvýš rovná ako dimenzia pôvodnej množiny (počet prvkov novej množiny bude menší alebo nanajvýš rovný ako počet prvkov pôvodnej množiny). Týmto postupom sa docieli to, že bude možné študovať daný štatistický problém v podpriestore s menšou dimenziou, čo má veľký význam pri ďalšej analýze štatistického súboru (testovanie hypotéz, hľadanie oblastí spoľahlivosti, grafické znázorňovanie pozorovaní, a pod.).

Počet hlavných komponentov je teda vždy menší alebo nanajvýš rovný pôvodnému počtu prvkov. Ortogonálna transformácia, ktorá sa pri tejto metóde používa, je definovaná tak, aby mal prvý hlavný komponent najväčšiu varianciu spomedzi všetkých možných lineárnych kombinácii vektora pozorovaní.

Metódu analýzy hlavných komponentov navrhol v roku 1901 anglický matematik Karl Pearson a v roku 1933 ju zovšeobecnil americký matematik Harold Hotelling.

Definícia[upraviť | upraviť zdroj]

Uvažujme p-rozmerný náhodný vektor {\mathbf X} = (X_1, \cdots, X_p)^{T}, ktorého kovariančnú maticu označme {\mathbf \Sigma} (táto matica je štvorcová typu p \times p a kladne semidefinitná). Podľa Jordanovej spektrálnej dekompozičnej vety o symetrických maticiach vieme, že každú symetrickú štvorcovú maticu môžeme zapísať v nasledovnom tvare:

{\mathbf \Sigma} = {\mathbf U}{\mathbf A}{\mathbf U}^{T} = \sum^{p}_{j=1} \alpha_{j} u_{j} u_{j}^{T}

Kde:

  • matica {\mathbf U} = (u_1, \cdots, u_p) je ortogonálna matica, ktorej stĺpce sú vlastné vektory normy 1 matice {\mathbf \Sigma}. Tieto vektory u_1, \cdots, u_p tvoria ortonormálny systém vlastných vektorov matice {\mathbf \Sigma}.
  • \alpha_{j} je vlastné číslo prislúchajúce vlastnému vektoru u_{j}. Môžeme predpokladať, že pre tieto vlastné čísla platí: \alpha_1 \ge \cdots \ge \alpha_p.

Strednú hodnotu vektora {\mathbf X} označme \mu. Potom náhodný vektor {\mathbf Z}, ktorý je definovaný nasledujúcim vzťahom:

{\mathbf Z} = U^T({\mathbf X} - \mu)

nazývame vektorom hlavných komponentov náhodného vektora {\mathbf X}.

Pre strednu hodnotu a kovariančnú maticu vektora {\mathbf Z} platí nasledovné:

  • E({\mathbf Z}) = 0
  • D({\mathbf Z}) = diag(\alpha_1, \alpha_2, \cdots, \alpha_p)

Zložky vektora sú nekorelované a pre disperzie týchto zložiek platí, že: D(Z_1) \ge D(Z_2) \ge \cdots \ge D(Z_p). Jednotlivé zložky vektora {\mathbf Z} sa nazývajú hlavné komponenty, teda pre k = 1, \cdots, p je náhodná premenná tvaru:

Z_k = u_k^T({\mathbf X} - \mu)

k-ty hlavný komponent náhodného vektora {\mathbf X}.

Vlastnosti[upraviť | upraviť zdroj]

Základné vlastnosti hlavných komponentov sú nasledovné:

  • E(Z_j) = 0 pre j = 1, \cdots, p
  • D(Z_j) = \alpha_j pre j = 1, \cdots, p
  • cov (Z_i, Z_j) = 0 pre i \ne j
  • cov(X_k ; Z_l) = u_{k, l} \alpha_l

Kde k, l \in \{1, \cdots, p\} a u_{kl} = (u_l)_k je k, l-ty prvok matice U a \sigma_k = \sqrt{D(X_k)}.

Prvý hlavný komponent Z_1 náhodného vektora X má najväčšiu disperziu spomedzi všetkých normovaných lineárnych kombinácií prvkov vektora X. Matematicky môžeme túto vlastnosť zapísať nasledovne:

D(Z_1) \ge D(c^{T}{\mathbf X})

kde c je ľubovoľný p-rozmerný vektor normy 1.

Pre druhý a každý ďalší hlavný komponent, teda pre i \ge 2, má i-ty hlavný komponent Z_i náhodného vektora {\mathbf X} najväčšiu disperziu spomedzi všetkých tých normovaných lineárnych kombinácií prvkov vektora {\mathbf X}, ktoré sú nekorelované s hlavnými komponentami Z_1, \cdots, Z_{i-1}.

Hlavné komponenty sú závislé od mierky, v ktorej sa vyskytujú jednotlivé premenné. Teda máme štatistický súbor, ktorý obsahuje rôzne premenné, pričom niektoré sú merané napríklad v metroch, iné v kilometroch, a ďalšie napríklad v sekundách. Hlavné komponenty sa v tomto prípade zmenia. Preto sa v praxi niekedy pristupuje k tzv. štandardizácii premenných, čo znamená, že sa na odhady vektorov hlavných komponentov namiesto výberovej kovariančnej matici používa výberová korelačná matica. Po aplikovaní tejto metódy dostaneme vektory výberových hlavných komponentov, ktoré nezávisia od mierky.

Z teoretického pohľadu je však najvhodnejšie použiť metódu analýzy hlavných komponentov v takých prípadoch, kedy sú jednotlivé premenné skúmaného štatistického súboru rovnakého charakteru (teda boli zmerané v rovnakých jednotkách).

Iné projekty[upraviť | upraviť zdroj]

Zdroj[upraviť | upraviť zdroj]

  • LAMOŠ, František; POTOCKÝ, Rastislav. Pravdepodobnsoť a matematická štatistika - Štatistické analýzy. Bratislava : Univerzita Komenského v Bratislave, Vydavateľstvo UK, 1998. 344 s. ISBN 80-223-1262-2. Kapitola Analýza hlavných komponentov.
  • HARMAN, Radoslav. Mnohorozmerné štatistické analýzy [online]. Katedra aplikovanej matematiky a štatistiky UK v BA, 2013-03-06, [cit. 2013-10-20]. Dostupné online.
  • ANDREJIOVÁ, Miriam; OLEXA, Jozef. Analýza spotreby prenosných batérií na Slovensku prostredníctvom metódy hlavných komponentov. Forum Statisticum Slovacum (Slovenská štatistická a demografická spoločnosť), roč. 2011, čís. 5. Dostupné online [cit. 2013-10-20].
  • Tento článok je čiastočný alebo úplný preklad článku Principal component analysis na anglickej Wikipédii.