Data Science

Was ist Data Science?

Unter dem Begriff Data Science versteht man ganz allgemein die Analyse von Daten und die Gewinnung von nützlichen Erkenntnissen durch die Kombination von spezifischem Fachwissen mit Statistik, Mathematik und Programmierkenntnissen.

Data Scientists verwenden künstliche Intelligenz (KI) und maschinelles Lernen, um z.B. Datentabellen, Texte, Bilder, Videos oder Audiodaten zu verarbeiten. Dabei können unterschiedliche Ziele verfolgt werden. Ein mögliches Ziel könnte sein, Systeme zu entwickeln, die die menschliche Wahrnehmung von Videos, Bildern oder Audiodaten nachahmen. Dies ermöglicht so unterschiedliche Dinge wie Defektkategorisierung in Produkten, maschinelle Übersetzungen oder autonomes Fahren. Andere Anwendungen sind auf komplexe Datensätze (z. B. Prozess- und Anlagendaten) spezialisiert, die für Menschen aufgrund der Datenmenge oder der Anzahl der voneinander abhängigen Eingabeparameter nicht überschaubar sind. Mit Hilfe von KI und maschinellem Lernen können auch in solchen Datensätzen Zusammenhänge gefunden werden.

In der Vergangenheit stand Data Science im Ruf, nur auf (sehr) große Datensätze anwendbar zu sein. Mit modernen datenzentrierten Ansätzen lassen sich jedoch auch kleine Datenmengen nutzen. Zu diesem Zweck werden die Daten von Fachleuten sorgfältig selektiert, kombiniert und vorbearbeitet. So können beispielsweise Klassifizierungsalgorithmen mit weniger als 100 Beispielen pro Klasse erfolgreich trainiert werden. Mit meinem Hintergrund in Physik und industrieller Forschung und Entwicklung bin ich besonders an Anwendungsfällen interessiert, die auf technologischem Fachwissen beruhen.

Was ist Machine Learning?

Machine Learning ist ein Zweig der künstlichen Intelligenz, der darauf abzielt, die Parameter empirischer Modelle an bekannte Daten anzupassen.

Das Modell soll sich an grundlegende Datenmuster anpassen (Generalisierung) und anschließend in der Lage sein, zuvor unbekannte Datenpunkte – die denselben Mustern folgen – mit möglichst geringer Abweichung vorherzusagen.

Was ist Deep Learning?

Deep Learning ist Machine Learning mit neuronalen Netzen.

Ein neuronales Netzwerk repräsentiert eine große mathematische Gleichung, die die Verbindung zwischen Eingabe- und Zielvariablen beschreibt.

Ursprünglich glaubte man, das menschliche Gehirn sei nach dem Prinzip neuronaler Netze aufgebaut. Dies ist mittlerweile widerlegt. Entgegen der verbreiteten Annahme haben Architekturen heutiger neuronaler Netze kaum Ähnlichkeit mit dem menschlichen Gehirn.

Lebenszyklus eines Data-Science-Projekts

Nach einem ersten Treffen und einer Brainstorming-Sitzung zur Ermittlung der zu lösenden Geschäftsprobleme läuft ein Data-Science-Projekt in der Regel wie folgt ab:

Identifizierung des Problems

Klare Vereinbarung über Projektziele, Anforderungen und Verpflichtungen.

Überprüfung der Daten und Durchführung einer explorativen Datenanalyse

Können relevante Merkmale aus vorhandenen Daten extrahiert werden? Werden zusätzliche Daten gebraucht? Wieviel Aufwand ist nötig, um sie zu erhalten?

Erstellung eines ersten Modells

Schnelle erste Abschätzung von Komplexität und Aufwand des Projekts.

Iterative Optimierung von Modell und Datensatz mit Hilfe von Trainingsdaten

Erreichen der spezifizierten Leistung des Modells.

Einsatz des Proof-of-Concept-Modells und Test mit zuvor unbekannten Anwendungsdaten

Überprüfen der Leistung des Modells in Anwendungsumgebung.

Weitere Überwachung des Modells

Falls erforderlich, weiteres Trainieren und Optimieren des Modells mit Hilfe neuer Trainingsdaten.

Ergebnis:

Ein KI-Algorithmus, der auf Ihre Anwendung zugeschnitten ist, mit Ihren Daten trainiert wurde und vollständig in Ihre täglichen Prozesse integriert werden kann.