Projektbeschreibung
Aufbau und Entwicklung des Machine Learnings zur Textklassifikation
Branche Versicherungen
von 11/2016
bis 04/2017
Aufgrund gelabelter Samples von Kundenschreiben, wird ein Recurrent Neural Networks mit pretrained Embeddings trainiert und zur Klassifikation von Chancen und Services über die Continous Integration Pipeline in Produktion gebracht. Die Herausforderung bestand zum einen neuronales Netzwerk zu entwickeln, das mit der variablen Eingangslänge von 0 bis maximal 4000 Zeichen umgehen kann und mit der vergleichsweise geringen Menge 3.000 Trainigssamples auf eine Genauigkeit von über 75% trainiert werden kann. Unter Verwendung von pretrained Embeddings, Multilayer RNNs und Dropoutlayern zwischen jedem einzelnen Hidden Layer, konnte mit der gegebenen Menge eine Klassifikationsgenauigkeit von 80%+ erreicht werden.
Das Deployment erfolgte auf Kubernetes/Openshift. Für das Training und den Betrieb des Modells mussten strenge datenschutzrechtliche Compliance-Regeln eingehalten und Lösung geschaffen werden. Über diese Herausforderungen und die innovativen Lösungen wurde auf der M³ 2017 in London berichtet.
Technologien
- Tensorflow 1.x |
- Docker |
- OpenShift |
- RNN |
- Word-Embeddings