Promotionsvorhaben
Automatische Verkehrszeichenerkennung
Name
Werner Ritter
Status
Abgeschlossen
Abschluss der Promotion
Erstbetreuer*in
Prof. Dr. Lutz Priese
Gutachter*in 2
Prof. Dr. Christoph Steigner
In dieser Arbeit ist ein sehr schnelles und robustes Verkehrszeichenerkennungssystem vorgestellt worden. Es ist unserem Wissen nach weltweit eines der ersten Echtzeit--Vekehrszeichenerkennungssysteme (mit einem nennenswerten Zeichenvorrat von über 70 Verkehrszeichen), dessen Funktion im normalen Straßenverkehr (Autobahn) in einem fahrenden Fahrzeug demonstriert werden konnte. Der Grundstein für das Leistungsvermögen dieses Systems bildet ein neu entwickeltes, auf der Auswertung von Farbinformation basierendes Fokussierungskonzept zur Detektion und Erkennung von Verkehrszeichen mit folgenden Verarbeitungsschritten:
1.Direkte Auswertung der Farbinformation, bei der die Gebiete mit den interessierenden Farben aus dem eingehenden Farbbild extrahiert und in ein farbmarkiertes Bild übertragen werden (Informationsfilter).2.Suche nach Farbsegmenten die in einer für Vekehrzeichen charakteristischen Farbkombination und Topologie auftreten. Weiteres Eingrenzen des Suchbereiches, d.h. der in Frage kommenden Verkehrszeichengebiete durch Hinzunahme von groben Formmerkmalen.3.Erkennung des Verkehrszeichens, indem im potientiellen Verkehrszeichengebiet durch stufenweise Auswertung von Farbe, Form und Piktogramm, der Typ und die Bedeutungsklasse eines Verkehrszeichens bestimmt werden.
Realisiert wurde das dem Verkehrszeichenerkennungssystem zugrundeliegende Fokussierungskonzept durch folgende drei Verarbeitungsmoduln:
Einem zweistufigen Pixelklassifikationsmodul, mit dem sich eine stabile Farbklassifikation auch unter großen Beleuchtungsschwankungen durchführen läßt. Das Pixelklassifikationsmodul generiert aus dem eingehenden Farbbild ein farbmarkiertes Bild, indem statt der 16 Mio. möglichen Farben, nur noch ein paar wenige (z.Z. vier bis sechs), für die Aufgabenstellung relevante Farbklassen enthalten sind.Einen auf der Arbeit von [Mandler:90] aufbauenden Zusammenhangsanalysemodul, mit dem das farbmarkierte Bild in eine symbolische Beschreibung überführt wird. Das Verfahren wurde so erweitert, daß sehr effizient auf Mengen von Farbsegmenten zugegriffen werden kann, welche die für Verkehrszeichen charakteristischen Farbkombinationen und Topologien aufweisen. Im Rahmen dieser Weiterentwicklung wurden neue topologische und geometrische Merkmale eingeführt, die für die Belange der Verkehrszeichenerkennung besonders geeignet sind. Durch Selektion von benachbarten Gebieten mit den für Verkehrszeichen charakteristischen Merkmalen (Farbe, Topoligie, geometrischen Größen) werden diese symbolische Beschreibung die potentiellen Verkehrszeichengebiete im Bild bestimmt.Einem Erkennungsmodul, bei dem das detektierte Verkehrszeichengebiet einem Klassifikatorbaum zugeführt wird, in dem Teilentscheidungen über Farbe (erste Ebene), Form (zweite Ebene) und Piktogramm (dritte Ebene) des Vekehrszeichens getroffen werden und aus diesen Teilentscheidungen eine Gesamtentscheidung über Typ und Bedeutungsklasse des Vekehrszeichens abgeleitet wird. Anwendung finden hier, die in OCR--Bereichen (ptical haracter ecognition) bekannten statistischen Ansätze zur Klassifikation von Einzelzeichen, die durch geschickte Anordnung der zu klassifizierenden Größen und durch die Einführung von speziell auf die Belange der Vekehrszeichenerkennung zugeschnittenen Normierungsverfahren, nun auch in Bildern von natürlichen Szenen genutzt werden können.
Das Pixelklassifikations-, das Zusammenhangsanalyse- und das Erkennungsmodul wurden in dieser Arbeit ausführlich erläutert. Anhand von detaillierten Untersuchungen wurde gezeigt, daß sich mit ihnen ein sehr schnelles und sicheres Verkehrszeichenerkennungssystem aufbauen läßt. So ergaben die Überprüfung der Erkennungsleistungen anhand eines 2000 Bilder umfassenden Testsets, daß die Verkehrszeichen in 72 aller Fälle nach einmaligem Auftreten in einem Einzelbild und in ca. 98 aller Fälle zumindest einmal innerhalb der Bildsequenz, in der ein Verkehrszeichen augetreten ist, detektiert wurde. Ferner ergab sich, daß die detektierten Verkehrszeichen in ca. 95 aller Fälle richtig erkannt wurden. Trotz dieser ansprechenden Erkennungsleistung benötigt man auf einer SPARC-10.Workstation mit diesem Verfahren für die Verarbeitung eines 512 x 256 großen Bildes lediglich etwa eine Sekunde. Es kann also bereits heute mit den derzeit kommerziell verfügbaren Rechnern eine schritthaltende Verarbeitung realisiert werden. Ein erster Schritt zur Realisierung eines Echtzeit-Verkehrszeichenerkennungssystem wurde mit der Implementierung dieses Verfahrens auf einem mit 4 MPC-601-Prozessoren (otorola ower omputer mit jeweils ca. 100 MIPS Rechenleistung) ausgestatteten Parallel-Hochleistungsrechner bereits gemacht [Estable:94]. Mit diesem System ließen sich bereits Verarbeitungszeiten von 250 ms pro Bild realisieren. Werden die MPC-601 Prozessoren durch die bereits heute verfügbaren Nachfolgemodelle, den MPC-604 ausgetauscht, dann ist auch die gewünschte Verarbeitungsgeschwindigkeit von 125 ms pro Bild erreicht. Bis zur Realisierung eines kommerziell genutzten Verkehrszeichenerkennungssystems ist jedoch noch einige Entwicklungsarbeit zu folgenden Schwerpunkten notwendig:
In dem in dieser Arbeit vorgestellten System wurden lediglich Einzelbilder ausgewertet. Es ist zu erwarten, daß sich durch die Miteinbeziehung von Bild-zu-Bild-Information sowohl die Robustheit, als auch die Effizienz des Systems steigern läßt. Erste Arbeiten hierzu wurden bereits in [Estable:96] in Angriff genommen.Mit dem Pixelklassifikations- und dem Erkennungsmodul wurden bereits zwei der drei Verarbeitungseinheiten mit der Fähigkeit ausgestattet, anhand von Beispielsdaten die von ihnen benötigten Systemparameter zu lernen, so daß hier die aufwendige und nicht immer optimale manuelle Einstellung von Systemparametern entfällt. Um auch schnell eine optimale Einstellung der im Zusammenhangsanalyseverfahren genutzten Parameter zur Selektion von potentiellen Verkehrszeichen zu erhalten, wäre es wünschenswert, wenn auch diese anhand von Beispielsdaten gelernt werden könnten. Dazu ist es notwendig, neben den geometrischen auch die topologischen Merkmale aus der Zusammenhangsanalyse auf eine Skala abzubilden.Die in der Arbeit ermittelten Erkennungsraten beziehen sich auf Bilder, die unter ``normalen'' Sicht- und Beleuchtungsbedingungen (Tageslicht) aufgenommen wurden. Für die Akzeptanz des Systems ist es jedoch notwendig, daß die guten Erkennungsleistungen auch dann noch erzielt werden, wenn die Sicht schlecht ist (Gegenlicht) oder wenn die Beleuchtung stark von der des Tageslichts abweicht (z.B. künstliche gelbe Beleuchtung im Tunnel, Beleuchtung der Vekehrsszene mit dem Scheinwerfer bei der Nachtfahrt). Mit der derzeit betriebenen Entwicklung von sogenanntenSilicon Retinas[Koch:95] scheint sich aber auch hier eine Lösung des Problems anzubieten. Es handelt sich dabei um lokal adaptive Bildsensoren, mit denen sehr große Helligkeitsbereiche (Dynamikbereich von mehr als sechs Dekaden [Grigat:95]) erfaßt werden können. Widrige Beleuchtungsbedingungen sollten also in der Zukunft kein Problem mehr sein. Mit der von [Moore:92] entwickeltenColor-Constancy-Retinawurde auch bei Farbbildern bereits ein Schritt in die entsprechende Richtung gemacht.