PosE - Echtzeitfähiges Posetracking mittels markanter Merkmale

Seit geraumer Zeit ist es das Ziel einer großen Zahl von Forschungsgruppen, stabile, wiederverwendbare Algorithmen für das bildbasierte, markerlose Tracking der Kamerapose relativ zu beliebigen Objekten zu entwickeln. Bisher verfügbare Verfahren können jedoch den Anspruch der Generalität noch nicht erfüllen. Sie sind zumeist auf spezielle Einsatzzwecke zugeschnitten und lassen sich nur schwer auf andere Szenarien adaptieren.

In diesem Projekt soll ein Framework erstellt werden, welches modular wissensbasiert aufgebaut ist. Für im Vorhinein festgelegte Objekte wird in einer Ontologie in Form deklarativen Wissens definiert, welche prägnanten Merkmale diese Objekte besitzen und wie sie geometrisch in einem 3-D-Modell zusammenhängen. Das 3-D-Modell liegt dabei zunächst in Form eines Drahtgittermodells, wie es durch manuelle Modellierung oder automatische Meshing-Algorithmen erzeugt wird, vor. Die Zuordnung zwischen Punkten im Drahtgittermodell und Objekten der Wissensbasis erfolgt zunächst manuell, in einer späteren Phase des Projekts automatisch.

Neben der explizit in der Ontologie aufgeführten Beschreibung der Objektmerkmale wird über prozedurales Wissen festgelegt, wie bestimmte Merkmale im Bild detektiert werden können. Das Framework stellt einen Kontrollalgorithmus zur Verfügung, dem eine Wissensbasis mit konkreten Konzepten, deklarativem und prozeduralem Wissen für das Tracking übergeben werden kann. Mit Hilfe dieses Vorwissens werden je nach Szenario die Merkmale und Algorithmen für bestimmte Objekte ausgewählt und für das Tracking in Echtzeit angewendet.

Der Vorteil des Ansatzes über explizite Wissensmodellierung liegt in der Austauschbarkeit der Wissensbasis, so dass für beliebige Szenarien mit geringem Aufwand eine Anpassung möglich ist. Um den Aufbau beliebiger Wissensbasen zu vereinfachen, werden für die Wissensmodellierung bewährte Werkzeuge aus dem Semantic Web eingesetzt. Diese bieten zudem den Vorteil, dass sie auf standardisierten Sprachen operieren, was die Allgemeingültigkeit und Wiederverwendbarkeit unseres Ansatzes erhöht.  Anhand des Szenarios Uni-Campus wird exemplarisch belegt, dass eine stereobildbasierte Posebestimmung mit expliziter Wissensmodellierung in Echtzeit möglich ist. Zusätzlich werden andere Szenarien wie beispielsweise Verkehrsszenen untersucht um die Generalität des Ansatzes zu demonstrieren.

Ein Schwerpunkt des Projekts ist die spezifische Erkennung von semantisch bedeutungsvollen Merkmalen im Bildstrom, wie Türen, Fenster, Dachrinnen, Schornsteine etc. Diese Merkmale sollen während des initialen Trackings sowohl über primitive Merkmale, wie Ecken, Linien, Polygone, etc. als auch über höhere Erkennungsalgorithmen automatisch an den 3-D-Modellen der verwendeten Konzepte annotiert werden. Im darauffolgenden Tracking sollen sie benutzt werden, um das Tracking zu stabilisieren. Es ist auf Grund der Erfahrungen mit solchen Merkmalen zu erwarten, dass sie einen wesentlichen Beitrag zur sicheren Posebestimmung leisten können.  Neben der Erkennung und der automatischen Integration semantisch bedeutungsvoller Merkmale soll das Framework auch die geometrische Verfeinerung des 3-D-Drahtgittermodells der Szene erlauben. Hier ist insbesondere vorgesehen, über bildbasierte 3-D-Rekonstruktion Details, wie Dachrinnen, Schornsteine, Fensterbretter etc. automatisch am 3-D-Modell zu ergänzen.

Für das Tracking der Pose ausgehend von bekannten Korrespondenzen zwischen Objekten im Bild und Punkten im 3-D-Modell werden neben den bekannten nicht-linearen Optimierungsverfahren Verfahren des Graphmatchings verwendet. Dadurch wird es möglich, eine Posebestimmung datengetrieben bottom-up durchzuführen, und eine Verifikation modellbasiert top-down einzusetzen. Unsere Erfahrung zeigt, dass eine solche, sich bei einem wissensbasierten Ansatz anbietende, Objekterkennung aus beiden Richtungen einen höheren Erfolg während der Initialisiung und der Trackingphase verspricht.

Die Umsetzung unseres Ansatzes kann bei erfolgreicher Durchführung als proof of concept gelten, dass eine Bildanalyse mit expliziter Wissensmodellierung für das Echtzeittracking umsetzbar ist. Damit wäre ein fundamentaler Weg zum Tracking in beliebigen, leicht austauschbaren Szenarien ohne künstliche Marker aufgezeigt. Außerdem stünde von diesem Zeitpunkt an ein neues, komponentenbasiertes Framework als Ausgangspunkt für zukünftige Forschungen im Bereich der wissensbasierten Echtzeitbildanalyse mit expliziter Wissensmodellierung zur Verfügung. Dies würde nicht nur der Bildverarbeitung an sich einen großen Nutzen bringen, sondern auch der z.Z. sehr aktiven Semantic Web Community ein Werkzeug zur praktischen Evaluation ihrer bildbasierten Ontologien an die Hand geben.

Erstellt von Frank Schmitt am  14. Januar 2008