Hintergrund
Kreditinstitute entscheiden Kreditanfragen auf der Basis von errechneten Kundenratings (Credit Scoring). Liegt dieses Rating unter einem festgelegten Schwellenwert, wird der Kreditantrag abgelehnt. Das Kundenrating basiert auf mehreren Faktoren, unter anderem der Bewertung von Überweisungs-eingängen und -ausgängen (Transaktionen). Die Transaktionen werden Umsatzkategorien, beispielsweise Einkauf, Bargeldabhebung oder Glücksspiel, zugeordnet.
Die Ausgangssituation
Unser Kunde – eine der führenden Direktbanken im deutschen Markt – ließ bisher die elektronischen Kontoauszüge der Kunden manuell auswerten: Mitarbeiter des Instituts klassifizierten jede Transaktion einzeln, was einen hohen zeitlichen und personellen Aufwand verursachte.
Unser Projekt
Ziel unseres Projektes war es, die Klassifizierung der Transaktionen mithilfe von maschinellen Lernalgorithmen zu automatisieren. Der erste Schritt in Form einer Machbarkeitsstudie wurde 2018 erfolgreich abgeschlossen.
Vorbereitung der Daten: Textmining
Um die Daten für die spätere Anwendung von Machine-Learning-Algorithmen zu nutzen, mussten die Daten entsprechend vorverarbeitet werden. Daher wurden die von Kunden individuell ausgefüllten Buchungstexte mit einem Textmining-Verfahren ausgewertet, um die darin enthaltenen Informationen zu extrahieren. Dabei fiel zunächst ein Großteil der Transaktionen in den Bereich „Sonstige Ausgaben“, da deren Verwendungszwecke keine eindeutige Zuordnung zu den anderen Kategorien ermöglichten. Zur Schärfung der Kategorisierung entschieden wir uns, auch die anderen vorhandenen Daten pro Transaktion auszuwerten und kombinierten diese mit den Ergebnissen des Textminings. So konnten wir diese Transaktionen aussagekräftigen Kategorien zuordnen und identifizierten bereits im ersten Testlauf drei neue Kategorien: „Geldautomat“, „Telefon/Handy“ und „Überweisung“.
Unsere Auswahl der Analysemethode
Im Rahmen der Machbarkeitsstudie wurden vier verschiedene Methoden zur Klassifizierung der Transaktionen untersucht: die logistische Regression, Random Forrests, AdaBoost und neuronale Netzwerke (siehe auch untenstehende Infobox). Insgesamt wurden dafür ca. 180.000 Transaktionen untersucht und die verschiedenen Lernalgorithmen wurden speziell für die neu definierten Kategorien auf den optimierten Daten trainiert. Im Ergebnis zeigten sich die drei Methoden Random Forrests, AdaBoost und neuronale Netzwerke als grundsätzlich geeignet. Die logistische Regression konnte für die weiteren Arbeiten ausgeschlossen werden.
Nach zusätzlichen Tests wählten wir AdaBoost als unseren Favoriten: Hier werden kleinere Lernalgorithmen in Serie geschaltet. Da jeder Algorithmus nur bestimmte Klassen korrekt zuordnen kann, liefert die Kombination aus mehreren Algorithmen ein optimales Ergebnis, da so auch Streuungen und Ausreißer berücksichtigt werden können.
Unser Mehrwert für den Kunden
Unsere Machbarkeitsstudie hat gezeigt, dass eine automatisierte Klassifizierung der Transaktionen möglich ist. Wenn diese Automatisierung implementiert wird, führt sie zu beschleunigten Prozessen und einer einheitlichen Klassifizierung ohne manuelle Irrtümer. Die Mitarbeiter, die derzeit für diese manuelle Tätigkeit zuständig sind, können sich dann anderen, abwechslungsreicheren Aufgaben widmen und so neue Herausforderungen angehen. Zusätzlich kann dies dem Unternehmen gegen den drohenden Fachkräftemangel helfen.
Info-Box für Klassifizierungsmethoden
Logistische Regression
Mit der Methode der logistischen Regression wird eine Klassifikation vorgenommen, die auf Wahrscheinlichkeiten für das Eintreten eines Ereignisses beruht. Dabei wird auf Annahmen bezüglich der Verteilung oder den linearen Zusammenhang der unterschiedlichen Gruppen verzichtet.
Random Forrest
Alle Entscheidungsbäume, die Teil der Random Forrests sind, wachsen während eines Lernprozesses unter Verwendung eines Zufallsmechanismus. Jeder Baum trifft zu einem Problem eine Entscheidung und die Klasse mit den meisten Stimmen gewinnt.
AdaBoost
Kleinere Lernalgorithmen werden in Serie geschaltet. Dadurch ist diese Methode sensitiv gegenüber Streuungen und Ausreißern. Da jeder Algorithmus unterschiedliche Klassen besser zuordnen kann, liefert ihre Kombination ein besseres Ergebnis.
Neuronales Netzwerk
Nach dem Modell des Gehirns werden Neuronen oder Nodes in einem Netzwerk angeordnet. Durch ein Training mit Referenzdaten kann das Netzwerk selbstständig die Klassifikation von Daten erlernen. Für diesen Trainingsprozess sind große Datenmengen erforderlich.