Erstellung eines prototypischen Systems zur Extraktion und semantischen Einordnung von Texten aus Rastergrafiken im RGB Farbraum auf Basis neuronaler Netze am Beispiel einer Liste von Lebensmittelinhaltsstoffen.
Wintersemester 2019/20
Abstract
Die vorliegende Arbeit behandelt die Konzeption und Umsetzung eines Systems zur Extraktion von Text aus Rastergrafiken im RGB Farbraum, sowie dessen semantischer Abgleich anhand einer erstellten Datenbasis im JSON-Format. Es wird ein einfaches, prototypisches Framework entwickelt, welches den einfachen Einsatz und Wechsel externer neuronaler Netze für die Textdetektion und -erkennung unterstützt. Der entstandene Code steht, wenn nicht anders angegeben unter der MIT-Lizenz.
Im Rahmen der Umsetzung wird die Einbindung und der Einsatz zweier frei verfügbarer Netze, eines EAST-Modells für die Detektion sowie eines CRNN für die Texterkennung, demonstriert. Sie kann als Vorlage für das Einbinden weiterer Netze genutzt werden. Zum Einsatz kommen hierbei die Frameworks TensorFlow und Keras.
Testbilder, sowie eine darauf basierende, musterhafte Evaluierung des Systems stellen eine Basis für ein eigenes Vorgehen beim Test des Gesamtsystems mit wechselnden Netzen zur Verfügung.
Anmerkung
Die von mir erstellte Bachelorarbeit führte im gewissen Sinne mein Praxisprojekt fort. Inhalt war die
Texterkennung und semantische Auswertung von in Bildern enthaltener Schlüsselwörter.
Als Schwerpunkt sind hier vor allem zwei Kernaufgaben zu sehen, namentlich das Detektieren und
Erkennen von Text. Hier sollte ein System entwickelt werden, welches die einfache Nutzung und
Einbindung vorhandener Lösungen ermöglicht. Die semantische Auswertung selbst hingegen ist im
Kontext der Fragestellung weniger herausfordernd.
Die im Rahmen des Projektes entstandene Codebasis kann auf Github eingesehen werden.