Wie wir bereits in unserem vorherigen Blogpost „KI vs. Machine Learning“ erläutert haben, geht es beim Machine Learning darum, wie Maschinen mithilfe von Daten lernen, ohne explizit für die entsprechende Aufgabe programmiert zu werden. Dabei sollen Maschinen so programmiert werden, dass sie fähig sind aus Inputdaten zu lernen.

In diesem Lernprozess stellen die Inputdaten Erfahrungswerte dar, welche in Wissen umgewandelt werden sollen. Die Maschine sollte hierbei nicht nur bereits gesehene Erfahrungswerte auswendig lernen, sondern allgemeine Muster und Trends erkennen. Dadurch können auch bisher ungesehene, neue Fälle bearbeitet werden. Das Vorhersagen von (für die Maschine) unbekannten Ereignissen bzw. Eigenschaften ist damit ein relevantes Ziel im Bereich des Machine Learning. Der Lernprozess kann nach unterschiedlichen Charakteristika klassifiziert werden. Eine besonders bekannte Unterteilung unterscheidet zwischen Supervised und Unsupervised Learning.

Beim Supervised Learning versucht das Modell einen verallgemeinerten Zusammenhang zwischen beobachteten Daten und einer bekannten Zielvariablen vorherzusagen. Hierbei ist für jeden Datensatz die Zielvariable bekannt und erfasst.

Im Gegensatz dazu sollen beim Unsupervised Learning versteckte Muster in einem Datensatz ohne eine bekannte Zielvariable gefunden werden.

Der Bereich des Supervised Learning wird generell in die Teilbereiche Classification und Regression eingeteilt. Bei einem Klassifizierungsproblem wird eine kategoriale Zielvariable vorhergesagt. Ein Beispiel für ein Klassifizierungsproblem ist das Einteilen von einer E-Mail in die Kategorie „Spam“ oder „Nicht-Spam“. Dabei lernt das Modell Muster auf Basis von vergangenen Daten. Ein Muster ist beispielsweise, wenn E-Mails mit einer überdurchschnittlich hohen Anzahl an Ausrufezeichen eher zu der Kategorie Spam gehören. Daraufhin wird das Modell verwendet, um die Kategorie für neue E-Mails zu prognostizieren. Bei einer Regression dagegen werden Vorhersagen für eine stetige Zielvariable erstellt. Beispielsweise kann hierbei das Gehalt auf Basis von Merkmalen wie der Ausbildung, dem Alter und der Berufserfahrung vorhergesagt werden.

Im Bereich des Unsupervised Learning ist vor allem das Clustering relevant. Diese Technik wird häufig in der explorativen Datenanalyse angewendet und hat das Ziel nicht offensichtliche Muster, sowie Gruppierungen zu entdecken. Clustering wird beispielweise für eine Kundensegmentierung auf Basis von unterschiedlichen Merkmalen der Kunden verwendet. Zudem werden im Bereich des Unsupervised Learning häufig Methoden der Dimensionsreduktion eingesetzt. Diese sollen dazu dienen, aufwendige Berechnungen durch eine große Anzahl an erklärenden Variablen zu reduzieren.

Sie interessieren sich besonders für die Themen Künstliche Intelligenz und Machine Learning? GABO unterstützt Sie gerne und findet gemeinsam mit Ihnen die beste Lösung für Ihr Unternehmen.

Quellen:

Awad, M. & Khanna, R., 2015. Efficient Learning Machines. Theories, Concepts, and Applications for Engineers and System Designers. o.O.: Apress open.

Hackeling, G., 2014. Mastering Machine Learning with scikit-learn. Apply effective learning algorithms to real-world problems using scikit-learn. 1 Hrsg. Birmingham: Packt Publishing.

MathWorks, kein Datum Machine Learning in MATLAB. [Online] Verfügbar unter: https://www.mathworks.com/help/stats/machine-learning-in-matlab.html [Zugriff am 19 Juli 2019].

Shalev-Shwartz, S. & Ben-David, S., 2014. Understanding Machine Learning. From Theory to Algorithms. New York: Cambridge University Press.

Kaplan, S., 2017. Deep Generative Models For Synthetic Retinal Image Generation, o.O.: Master-Thesis – veröffentlicht auf ResearchGate.