In den Projekten der KI-Werkstatt wurde mit dem Data-Mining-Prozess CRISP-DM gearbeitet. Die Planung für CRISP-DM begannen bereits 1996 durch die Unternehmen DaimlerChrysler AG, OHRA, SPSS Inc. und NVR Systems Engineering. Grundsätzlich war das Ziel die Bereitstellung eines branchen-, software- und anwendungsunabhängigen standardisierten Prozessablauf des Data Minings für Unternehmen zur Auswertung großer Datenbestände. Ab 1999 wurde mit dem CRISP-DM Modell ein einheitlicher Standard etabliert. Über die Jahre hat sich der CRISP-DM auch in Projekten im Bereich des maschinellen Lernens etabliert und findet dort breite Anwendung. Der CRISP-DM ist unterteilt in folgende sechs Phasen:
Am Anfang des Prozesses steht das Geschäftsverständnis. In dieser Phase werden die Projektziele festgelegt, sowie aus der Perspektive des Unternehmens betrachtet. Dieses Wissen dient als Grundlage, um Projektziele in eine konkrete Problembeschreibung zu überführen. Zudem wird anhand des Wissens über den zugrundeliegenden Prozess einen erste Struktur für das Datenverständnis entwickelt.
In der Phase des Datenverständnis kann es immer wieder dazu kommen, dass die formulierte Problemstellung hinterfragt und angepasst wird. So können zum Beispiel für die ursprünglich formulierte Zielsetzung gar keine Daten in der erforderlichen Qualität oder Menge vorliegen. Diese Phase gliedert sich in vier Abschnitte: Daten sammeln, Daten beschreiben, Daten erkunden und Prüfung der Datenqualität. Hierfür werden die Daten in eine einheitliche Datengrundlage überführt. Mit diesem Datenstamm, kann überprüft werden, ob die akquirierten Daten den Anforderungen entsprechen. Ist dies nicht der Fall, müssen neue Daten akquiriert werden oder die Problemstellung überarbeitet werden. Liegt eine entsprechende Datengrundlage vor, kann zum dritten Schritt übergegangen werden.
In diesem Schritt werden die bereitgestellten Rohdaten in Daten überführt, welche für die Modellierung genutzt werden können. Hierfür werden die relevanten Daten zunächst aus den Rohdaten ausgewählt und anschließend bereinigt (z.B. fehlende oder unplausible Daten). Neue Daten werden in den Datensatz integriert und dieser für die Modellierung vorbereite. Dieser Schritt hat einen erheblichen Einfluss auf die späteren Modellierungsergebnisse. Abschließend in dieser Phase wird das Testdesign festgelegt. Dieses legt fest, wie die Güte des Modells evaluiert wird. Hierfür wird der Datensatz in ein Trainings- und Testdatensatz unterteilt. Die Modellentwicklung erfolgt dabei auf Grundlage des Trainingsdatensatzes und die Beurteilung der Ergebnisqualität auf Grundlage des Testdatensatzes.
Im nächsten Schritt beginnt die Modellierung. Diese besteht aus drei Unterteilen: Modellselektion, Modellaufbau und Modell-Assessment. Im ersten Schritt muss ein geeigneter ML-Algorithmus ausgewählt werden. Der Algorithmus, welchen den festgelegten Test-Kriterien am besten gerecht wird, wird ausgewählt. Der Algorithmus wird anhand des Trainingsdatensatzes angelernt, um ein prognosefähiges ML-Modell zu erstellen. Im Teilschritt des Modell-Assessments ist die Leistungsfähigkeit des Modells unter Anwendung des vorliegenden Domänenwissens – ggf. unter Zuhilfenahme von Fachexpert*innen – zu beurteilen. Es kann insbesondere während des Assessments immer wieder zu neuen Erkenntnissen kommen, die Anpassungen an der Datenrepräsentation erforderlich machen.
Im Schritt der Evaluierung ist das entwickelte Modell hinsichtlich der Erreichung der eingangs formulierten Projektziele zu validieren. Ob wichtige Projektziele eventuell gar nicht oder nicht hinreichend erfüllt werden, gilt es hier zu beurteilen. Die projektverantwortliche Person sollte sich am Ende dieser Phase über die möglichen Verwendungszwecke der Projektergebnisse im Klaren sein. Nun müssen die nächsten Schritte für das Projekt festgelegt werden. Das Modell kann in die Verwendung überführt werden oder das Unternehmen muss noch einem die Erwartungen an das Projekt überprüfen und anpassen.
Ist das Projekt entsprechend positiv evaluiert worden, kann die Anwendung in den real Betrieb überführt werden.