Hauptkomponentenanalyse (PCA)

Dieser Beitrag vermittelt einen Überblick über die Hauptkomponentenanalyse. Zuerst werden die grundlegenden Konzepte der Eigenvektoren und Eigenwerte eingeführt. 

Eigenvektor
Ein Eigenvektor ist ein vom Nullvektor verschiedener Vektor einer Abbildung, dessen Richtung durch die Abbildung nicht geändert wird. Er wird höchstens gestreckt. Eigenvektoren sind orthogonal zueinander.
Konkret heißt das: multipliziert man eine Matrix (Abbildung; nur nxn) mit einem ihrer Eigenvektoren, ergibt sich ein Vektor, der sich nur in der Länge (Eigenwert) unterscheidet, aber nicht in der Richtung.

Eigenwert
Der Eigenwert einer Abbildung ist der Streckungsfaktor beim oben genannten Eigenvektor.

Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Durch die Hauptkomponentenanalyse möchte man Datensätze strukturieren und vereinfachen, um z.B. herauszufinden, welche Quellsignale zu welchem Grad zu einem gemischten Signal beigetragen haben.
Dies wird hier erreicht, indem der Datensatz durch eine möglichst geringe Zahl von Linearkombinationen (Hauptkomponenten, principal components) näherungsweise beschrieben wird. Die Hauptkomponenten sind hierbei die Eigenvektoren der Kovarianzmatrix des Datensatzes. Sie verlaufen orthogonal zueinander in den Richtungen, in denen die Daten am meisten variieren. Der erste Vektor verläuft also als Gerade so durch die Daten, dass er diese am meisten annähert. Der zweite verläuft orthogonal dazu in der Mitte der Daten, usw. Am Ende möchte man dann wissen, welche Hauptkomponenten wie stark zum Signal beigetragen haben.

Anschaulich betrachtet wird eine Hauptachsentransformation durchgeführt: neue Hauptachsen sind die Eigenvektoren der Kovarianzmatrix, die Daten werden entsprechend gedreht. Die neuen Variablen heißen „scores“. Dadurch werden die Daten auch maximal dekorreliert (das sieht man daran, dass sie dann hauptsächlich waagrecht verlaufen). Unkorreliert bedeutet aber noch nicht unabhängig  – das sind die Daten dann nur, wenn sie normalverteilt sind.

Abb.: Scores in rot, Eigenvektoren in blau

Zur Vereinfachung der Daten durch Reduktion der Dimensionalität lässt sich die PCA einsetzen, indem man Komponenten mit kleinen Eigenwerten ignoriert.
Nachteil ist natürlich, dass man bei der PCA die Annahme trifft, dass die Originaldaten auch orthogonal zueinander gemischt sind. Ist das nicht der Fall, kann man mit dieser Methode schlecht die Quellsignale aus dem Mix gewinnen.

PCA – bei SONDEV standardmäßig im Einsatz

Unsere Datenanalysten bei SONDEV (Leistungen > Datenanalyse) nutzen PCA in ihrer täglichen Arbeit.

So kommt sie unter anderem auch im Projekt „SAFE-On-Line“ erfolgreich zum Einsatz.