Maschinen sind die besseren Statistiker

Der Titel ist bewusst provokant gewählt. Seit es Forschung zur Künstlichen Intelligenz gibt, wird darüber gestritten, ob Künstliche Intelligenz (KI) jemals der menschlichen Intelligenz ähnlich sein wird, ob das überhaupt ein sinnvolles Ziel ist, oder ob KI die Vielfalt von natürlichen Intelligenzen (man denke an das Tier- und Pflanzenreich) bereichert. Was zeichnet menschliche Intelligenz aus?

Jüngste Beiträge zur Debatte lieferten unlängst Daniel Kahneman (Nobelpreis für Wirtschaft) mit seinem Buch „Schnelles Denken, Langsames Denken“ und Herausgeber John Brockman mit „Was sollen wir von Künstlicher Intelligenz halten?“, eine Sammlung von über 100 Aufsätzen auf 600 Seiten von Forschern und Wissenschaftlern verschiedenster Disziplinen.

Liest man beide Werke parallel, kann man ein präziseres Verständnis davon erlangen, was KI nicht nur potenziell in naher und ferner Zukunft, sondern ganz aktuell schon leisten kann. Wenn die meisten Menschen, wie Kahneman durch zahlreiche Studien illustriert und belegt, tatsächlich schlechte intuitive Statistiker sind, erweist sich die KI als willkommenes Werkzeug, um diese kognitive Lücke zu füllen.

Statistisches und intuitives Denken

Denn Machine Learning (ML), ein prominenter Teilbereich der KI, befasst sich gerade mit der automatisierten Anwendung statistischer Methoden, und erreicht damit, was nur wenigen Menschen nach langem Training und großem Zeit- und Energieaufwand möglich ist: gigantische Datenmengen unermüdlich nach statistischen Zusammenhängen und Korrelationen zu durchforsten – ohne dabei für intuitive Fehler durch Vorurteile (Kahneman nennt sie „Kognitive Verzerrungen“, siehe Kapitel 10) anfällig zu sein.

Ein bestimmter roter Faden zieht sich jedoch besonders durch Brockmans Textsammlung: Maschinen können zwar Regeln aus vergangenen Daten extrahieren und diese auf die Zukunft übertragen – statistisches Denken. Intuitives, heuristisches Denken, Kreativität oder Innovation erfordert aber mehr, als die Vergangenheit in die Zukunft zu verlängern. Darum können KI und ML momentan auch nur Werkzeuge sein, die – wie alle Werkzeuge – sinnvoll und zielgerichtet eingesetzt werden müssen.

Menschliche und künstliche Intelligenz

Genau dort setzt die fruchtbare Zusammenarbeit zwischen Domänenexperten und Statistikern, Entwicklungsingenieuren und Kognitionswissenschaftlern bei SONDEV an (Leistungen > Datenanalyse). Hier arbeiten menschliche und künstliche Intelligenz erfolgreich an kreativen und innovativen Kundenlösungen zusammen.

IT-Ethik – ein wichtiges Thema für die SONDEV

IT-Ethik ist gefragt wie noch nie!

Mindestens drei Auslöser lassen sich ausfindig machen:

1. die öffentliche Debatte über die fragwürdige Verwendung personenbezogener Daten namhafter Internetgiganten in den vergangenen Jahren,

2., auch als Antwort darauf, die neue Datenschutz-Grundverordnung der EU, und

3. die kritischen Stimmen in den Medien angesichts neuer technologischer Möglichkeiten von Künstlicher Intelligenz (KI) und Maschinellem Lernen (ML).

Spätestens seitdem sind die ethischen Aspekte der Informationstechnologie (IT) im Bewusstsein der allgemeinen Öffentlichkeit präsent.

Das „ganze“ Bild

Allerdings sind KI und ML zunächst äußerst produktive Werkzeuge. Zum Leistungsspektrum der SONDEV gehört seit Jahren die Technische Datenanalyse (Leistungen > Datenanalyse). Hier kommen hochaktuelle Technologien wie Deep Learning und Convolutional Neural Networks (CNN) erfolgreich zum Einsatz. Das sind recht junge Weiterentwicklungen von Neuronalen Netzen, welche, selbst prinzipiell schon seit über 50 Jahren theoretisch verstanden, ihre praktischen Möglichkeiten erst mit aktuellen Supercomputern voll entfalten können. Besonders beeindruckend in der Forschung sind die aktuellen Erfolge im Maschinellen Sehen, also der automatisierten Bilderkennung, aber auch mit KI-Agenten, die sich innerhalb kürzester Zeit Brettspiele wie Schach und Go auf Weltmeisterniveau – nur im Spiel gegen sich selbst! – beibringen.

IT-Ethik bei der SONDEV

Entwicklungsingenieure haben bei SONDEV nicht nur am aktuellen Stand der Technik, sondern auch an der aktuellen ethischen Diskussion aktiv teil. Denn hier steht IT-Ethik ganz bewusst auf der Agenda.

Dennis Menze, Bereichsleiter Software & Datenanalyse, moderiert als studierter Philosoph und Kognitionswissenschaftler die regelmäßig stattfindenden Diskussionsrunden und regt so mit konkreten Denkanstößen zur Reflexion der eigenen ethischen Verantwortung von Datenexperten und Softwareentwicklern an.

Was Datenschutz im Alltag bedeutet, wie technisch produzierte Informationen Sicherheit und Glaubwürdigkeit erzeugen, wie technische Innovationen allgemein die Lebenswirklichkeit prägen, wird unter anderem angeregt diskutiert.

Ein „gutes“ Produkt

Von diesen Überlegungen können unsere Produkte direkt profitieren, um sie noch mehr auf die Bedürfnisse des Kunden abzustimmen.

Wir bei SONDEV sind davon überzeugt, in einer komplexen Welt durch eine möglichst ganzheitliche und interdisziplinäre Perspektive ein ebenso komplexes und im weitesten Sinne „gutes“ Produkt für unsere Kunden anbieten zu können.

Hauptkomponentenanalyse (PCA)

Dieser Beitrag vermittelt einen Überblick über die Hauptkomponentenanalyse. Zuerst werden die grundlegenden Konzepte der Eigenvektoren und Eigenwerte eingeführt. 

Eigenvektor
Ein Eigenvektor ist ein vom Nullvektor verschiedener Vektor einer Abbildung, dessen Richtung durch die Abbildung nicht geändert wird. Er wird höchstens gestreckt. Eigenvektoren sind orthogonal zueinander.
Konkret heißt das: multipliziert man eine Matrix (Abbildung; nur nxn) mit einem ihrer Eigenvektoren, ergibt sich ein Vektor, der sich nur in der Länge (Eigenwert) unterscheidet, aber nicht in der Richtung.

Eigenwert
Der Eigenwert einer Abbildung ist der Streckungsfaktor beim oben genannten Eigenvektor.

Hauptkomponentenanalyse (Principal Component Analysis, PCA)

Durch die Hauptkomponentenanalyse möchte man Datensätze strukturieren und vereinfachen, um z.B. herauszufinden, welche Quellsignale zu welchem Grad zu einem gemischten Signal beigetragen haben.
Dies wird hier erreicht, indem der Datensatz durch eine möglichst geringe Zahl von Linearkombinationen (Hauptkomponenten, principal components) näherungsweise beschrieben wird. Die Hauptkomponenten sind hierbei die Eigenvektoren der Kovarianzmatrix des Datensatzes. Sie verlaufen orthogonal zueinander in den Richtungen, in denen die Daten am meisten variieren. Der erste Vektor verläuft also als Gerade so durch die Daten, dass er diese am meisten annähert. Der zweite verläuft orthogonal dazu in der Mitte der Daten, usw. Am Ende möchte man dann wissen, welche Hauptkomponenten wie stark zum Signal beigetragen haben.

Anschaulich betrachtet wird eine Hauptachsentransformation durchgeführt: neue Hauptachsen sind die Eigenvektoren der Kovarianzmatrix, die Daten werden entsprechend gedreht. Die neuen Variablen heißen „scores“. Dadurch werden die Daten auch maximal dekorreliert (das sieht man daran, dass sie dann hauptsächlich waagrecht verlaufen). Unkorreliert bedeutet aber noch nicht unabhängig  – das sind die Daten dann nur, wenn sie normalverteilt sind.

Abb.: Scores in rot, Eigenvektoren in blau

Zur Vereinfachung der Daten durch Reduktion der Dimensionalität lässt sich die PCA einsetzen, indem man Komponenten mit kleinen Eigenwerten ignoriert.
Nachteil ist natürlich, dass man bei der PCA die Annahme trifft, dass die Originaldaten auch orthogonal zueinander gemischt sind. Ist das nicht der Fall, kann man mit dieser Methode schlecht die Quellsignale aus dem Mix gewinnen.

PCA – bei SONDEV standardmäßig im Einsatz

Unsere Datenanalysten bei SONDEV (Leistungen > Datenanalyse) nutzen PCA in ihrer täglichen Arbeit.

So kommt sie unter anderem auch im Projekt „SAFE-On-Line“ erfolgreich zum Einsatz.