Maschinelles Lernen ist der Erwerb von neuem Wissen, das durch ein künstliches System erzeugt wird. Auf ähnliche Weise wie ein Mensch generiert der Computer Wissen anhand von Erfahrung und kann eigenverantwortlich Lösungen für neue und unerforschte Probleme ermitteln.

Machine Learning ist ein Teilbereich der künstlichen Intelligenz (Engl.: Artificial Intelligence (AI)), der sich mit dem Erlernen von Mustern aus Daten beschäftigt. Durch das Training von Algorithmen mit großen Datensätzen können Machine-Learning-Systeme automatisch nach Mustern in Daten suchen und diese erkennen. Das ermöglicht es den Systemen, Aufgaben zu erledigen, die für Menschen schwierig oder sogar unmöglich wären, da die zugrundeliegenden Daten zu umfangreich sind. 

Mit maschinellem Lernen kann man beispielsweise:

  • relevante Daten finden, extrahieren und zusammenfassen
  • Vorhersagen aufgrund der Datenbasis treffen
  • Wahrscheinlichkeiten für Ergebnisse berechnen
  • sich an Änderungen anpassen und Muster optimieren
  • Optimierung von Geschäftsprozessen

Arten von Machine Learning

Wir unterscheiden Supervised (überwachtes), Unsupervised (unüberwachtes) und Reinforcement Learning (bestärkendes Lernen). Supervised Learning lässt sich weiter in Unterkategorien, Semi-Supervised Learning und Active Learning unterteilen.

Supervised Learning

Supervised Learning ist ein Prozess, bei dem ein Modell auf Basis eines Datensatzes mit bekannten Lösungen trainiert wird. Der Datensatz ist bereits vollständig gelabelt bzw. kategorisiert. Ein Klassifizierungsproblem ist ein anschauliches Beispiel für solch ein Supervised Learning-Problem. Als Beispiel kann hier die Unterscheidung zwischen den beliebten Haustieren Hund und Katze herangezogen werden. Es wird ein Modell mit Bildern von Hunden und Katzen sowie deren jeweiliger Klassifizierungen trainiert. Ziel ist es, das Modell später auf neue, unbekannte Bilder anwenden zu können. Das Modell soll also nach dem Training bei unbekannten Bildern bestimmen können, ob es sich um einen Hund oder eine Katze handelt. 

Für das Training wird in der Regel ein neuronales Netz verwendet. Zunächst wird dieses Netz mit den Beispielbildern und deren Klassifizierungen trainiert. Dabei lernt das Netz, bestimmte Merkmale auf den Bildern zu erkennen und diese mit einer bestimmten Klasse, in diesem Fall Hund oder Katze, zu verknüpfen. Anschließend wird das Netz auf neue, unbekannte Bilder angewendet. Dabei versucht das neuronale Netz, die neuen Bilder anhand der gelernten Merkmale einer der beiden Klassen (Hund oder Katze) zuzuordnen. Ziel ist es, das Modell so zu trainieren, dass es in der Lage ist, neue Bilder richtig zu klassifizieren. In der Regel sind dafür große Mengen an Trainingsdaten nötig.

Semi-Supervised Learning

Semi-Supervised Learning (Teilüberwachtes Lernen) ist ein maschinelles Lernverfahren, bei dem das Modell nur teilweise mit korrekten Klassifizierungen trainiert wird. Die Datenmenge enthält also sowohl gekennzeichnte als auch ungekennzeichnete Beispiele. Dies bedeutet, dass das Modell selbst einige der richtigen Antworten finden muss. 

Dieser Ansatz spart Kosten, da es nicht erforderlich ist, viele Daten manuell zu labeln. Ungelabelte Daten sind im Vergleich wesentlich kostengünstiger, können aber in diesem Modell ebenfalls zum Lernen verwendet werden. Die Herausforderung besteht jedoch darin, die Trainingsdaten so zusammenzustellen, dass das Verhältnis von beschrifteten und unbeschrifteten Daten eine hohe Gesamtsignifikanz für den Algorithmus erreicht. Ziel ist es, den nicht gelabelten Daten mit Algorithmus ein richtiges Label zuzuweisen. Dies kann mithilfe der sogenannten Label Propagation erreicht werden, die Ähnlichkeiten zur Clusteranalyse aufweist. Dazu werden die Daten zunächst in Gruppen aufgeteilt. Anschließend werden innerhalb jeder Gruppe die unbeschrifteten Daten mit den gleichen Labels versehen, die die in dieser Gruppe bereits gelabelten Daten enthalten.

Active Learning

Es gibt Situationen, bei denen zwar Daten im Überfluss vorhanden sind, ein manuelles Markieren (Labeln) dieser Daten aber zu teuer ist. Aktives Lernen ist ein Spezialfall des maschinellen Lernens, bei dem ein Lernalgorithmus interaktiv einen Benutzer (oder eine andere Informationsquelle) abfragen kann, um neue Datenpunkte mit den gewünschten Ergebnissen zu versehen. Dieses iterative, überwachte Lernen wird als aktives Lernen bezeichnet. Da der “Lernende” selbst die Beispiele auswählt, ist die Anzahl der Datensätze, um ein Konzept zu lernen, oft viel geringer als beim normalen überwachten Lernen. Als Beispiel kann hier die Entwicklung eines Spam-Detektors aufgeführt werden. Der lernende Algorithmus fragt hierbei aktiv den Benutzer, ob eine Mail Spam ist oder nicht und der Benutzer labelt diese, indem er die richtige Antwort gibt.

Reinforcement Learning

Reinforcement Learning ist eine Methode, bei der sich ein Software-Agent im Laufe der Zeit durch Ausprobieren und Fehler machen selbst verbessert. Das Ziel des Agenten ist es, möglichst hohe Belohnungen zu erzielen. Reinforcement Learning basiert auf dem Prinzip des positiven Verstärkens: Je höher die Belohnung, desto stärker ist die Motivation, diese zu erreichen.

Im Gegensatz zu den anderen Methoden werden für das Reinforcement Learning vorab keine Daten benötigt. Stattdessen werden die benötigten Daten in vielen Versuchs- und Fehler-Durchgängen in einer Simulationsumgebung während des Trainings generiert und kategorisiert.

Der Software-Agent lernt, eine Strategie zu entwickeln, um die Anzahl der Belohnungen in einer simulierten Umgebung zu maximieren. Beim Training führt der Agent bestimmte Aktionen aus und erhält darauf Feedback.

Dem Software-Agenten wird vorab nicht mitgeteilt, welche Aktion in einer bestimmten Situation am vorteilhaftesten ist. Stattdessen erhält er in regelmäßigen Abständen eine Belohnung. Während des Trainingsprozesses lernt er, welche Konsequenzen seine Handlungen in der Simulationsumgebung nach sich ziehen. Auf dieser Grundlage erschafft er eine Strategie, um die Belohnungen auf lange Sicht zu maximieren.

Ein sehr bekanntes Beispiel für Reinforcement Learning ist „Alpha Go“ von Googles KI-Spezialisten DeepMind. Im Jahr 2015 brachte das Computerprogramm Schlagzeilen, nachdem es in der Lage war, einen Europameister im Brettspiel Go zu gewinnen. Nachfolgende Versionen der Software schlugen in den nächsten Jahren auch Go-Weltmeister.

Unsupervised Learning

Unsupervised Learning hingegen bedeutet, dass keine korrekten Antworten für die Daten vorliegen. Stattdessen versucht das Modell selbst, Muster in den Daten zu finden. Ein typisches Problem des Unsupervised Learnings ist die Clusteranalyse. Hier geht es darum, herauszufinden, welche Elemente des Datensatzes ähnlich sind und in welchen Gruppen (Clustern) sich diese befinden bzw. in welche Gruppen diese eingeteilt werden können. Unsupervised Learning ist besonders nützlich, wenn es darum geht, neue Trends oder Muster in den Daten zu erkennen. Dabei muss der Algorithmus keine vorgegebenen Beispiele haben, um zu lernen. Stattdessen analysiert er einfach die Struktur der Daten und sucht nach Mustern. 

Ist Machine Learning gleich künstliche Intelligenz?

Obwohl die beiden Begriffe oftmals synonym verwendet werden, stellen sie nicht exakt das gleiche dar. Machine Learning ist ein Bestandteil der künstlichen Intelligenz (KI). Beim Machine Learning handelt es sich um das Trainieren von Maschinen, sodass diese eigenständig präzisere Vorhersagen treffen können. Das ist zwar scheinbar „intelligent“, hat aber nichts mit kognitiver Intelligenz wie bei Menschen zu tun.

Künstliche Intelligenz beschreibt insgesamt die Leistung von Maschinen, Aufgaben aufgrund von Algorithmen selbstständig auszuführen und im Umgang mit unbekannten Situationen anpassungsfähig zu sein. Darunter fallen das maschinelle Lernen oder Machine Learning, das Verarbeiten natürlicher Sprache (NLP – Natural Language Processing) und Deep Learning. Das Verhalten der Maschinen ist hierbei dem menschlichen ähnlich. Sie vollbringen nicht nur Wiederholungsarbeit, sondern können auch aus Erfolgen und Misserfolgen lernen und sich dementsprechend anpassen.