Promotionsvorhaben

Invariante Mustererkennung zweidimensionaler Objekte

Name
Randolf Werner
Status
Abgeschlossen
Abschluss der Promotion
Erstbetreuer*in
Prof. Dr. Lutz Priese
Gutachter*in 2
Prof. Dr. Herbert Druxes
Es wurde ein neuer Ansatz zur Erkennung zweidimensionaler Objekte unabhängig von deren Lage, Größe und Rotation vorgestellt. Es handelt sich um einen biologisch motivierten Ansatz, der allerdings nicht als Erklärungsversuch der menschlichen Wahrnehmung mißverstanden werden darf. In der praktischen Erprobung an einer nicht trivialen Aufgabenstellung mit großen Datenmengen wurden gute Ergebnisse erzielt. Es konnten bis zu 91.9% (bzw.93.7% bei eingeschränktem Rotationsbereich) korrekte Klassifikationen auf der Testmenge erreicht werden, während die untersuchten klassischen Methoden mit 40.7%, 64.9% bzw. 83.6% deutlich schlechtere Ergebnisse liefern. Der beschriebene Algorithmus zeichnet sich insbesondere durch folgende Merkmale aus: Invariant bezüglich Lage, Größe und Rotation.Beliebige zweidimensionale Objekte können verarbeitet werden. Es bestehen keine prinzipiellen Einschränkungen, die eine Erkennung bestimmter Objektarten verhindern würden.Schätzung der Lage, Rotation und Größe der erkannten Objekte.Gute Parallelisierbarkeit durch Ausnutzung der inhärenten Parallelität des Verschiebungs- und Klassifikationsprozesses im Log-Polar Bild und Verwendung von ANNs.Sobald entsprechend leistungsfähige Implementierungen der Log-Polar Transformation und ANNs verfügbar sind, kann das komplette System sehr effizient in Hardware realisiert werden. Das Verfahren verwendet die Log-Polar Transformation und MFNs als zentrale Komponenten. Gegenüber ähnlichen Verfahren konnten eine Reihe von Verbesserungen vorgenommen werden: Verbesserte Log-Polar Implementierung durch "rezeptive field mapping".Einbeziehen der durch Log-Polar Transformation, Rotation und Skalierung hervorgerufenen Diskretisierungsfehler in die Trainingsphase.Anstatt eine translationsinvariante Transformation der Log-Polar Bilder (z.B. Fourierbetragsspektrum) zu verwenden, wird die Translation im Log-Polar Bild durch einen Verschieber und ein speziell dafür trainiertes MFN bestimmt. Dadurch wird ein Informationsverlust vermieden und zusätzlich Größe und Rotation ermittelt.Durch Vorgabe von Parametergrenzen für den Verschieber kann eine graduelle Invarianz bzgl. Rotation und Größe realisiert werden, die zudem die Klassifikationsergebnisse weiter verbessert und die Verarbeitungsgeschwindigkeit erhöht.Mittels NSGP können netzspezifische strukturierte Gegenbeispiele erzeugt werden, die es ermöglichen, MFNs so zu trainieren, daß verschobene Log-Polar Bilder als Gegenbeispiele klassifiziert werden. Dies erlaubt den Einsatz von MFNs als Klassifikatoren während des Verschiebungsvorganges im Log-Polar Bild. Die Verwendung von strukturierten Netzwerktopologien mit rezeptiven Feldern und gekoppelten Gewichten (ähnlich der menschlichen Sehbahn) verbessert die Klassifikationsgüte deutlich. Der vorgestellte Algorithmus NSGP eröffnet die Möglichkeit, transformationsinvariante Klassifikatoren mit ANNs zu realisieren. NSGP kann auch in völlig anderen Anwendungsgebieten eingesetzt werden. Potentielle Einsatzgebiete entstehen immer dann, wenn ANNs zur Erkennung transformierter Muster verwendet werden. Idealer Weise verwendet man NSGP zusammen mit einer möglichst verlustfreien, invarianten Vorverarbeitung zur Reduzierung von Anzahl und Komplexität der auftretenden Transformationen. In der Spracherkennung könnte NSGP z.B. für eine sprecherunabhängige Klassifikation von Sonogrammen eingesetzt werden.