Promotionsvorhaben

Integrated Natural Language Generation with Schema-TAGs

Name
Jens Woch
Status
Abgeschlossen
Abschluss der Promotion
Erstbetreuer*in
Prof. Dr. Karin Harbusch
Gutachter*in 2
Prof. Dr. Manfred Rosendahl
Die automatische Generierung natürlich sprachlicher Texte ist gespickt mit Hindernissen, besonders wenn es um Frage geht, wann und welches Wissen zum Einsatz gebracht werden soll, was zu Problemen wie der lexikalischen Auswahl und des sogenannten generation gaps führen kann. In der einschlägigen Literatur wurden verschiedene Architekturen vorgeschlagen, die diese Probleme umgehen sollen, doch integrierte Ansätze scheinen den elegantesten, wenn auch nicht sehr weit verbreiteten Weg zu gehen. Diese Arbeit beschreibt, wie eine uniforme und integrierte Textgenerierung die übliche Generierungsprobleme lösen oder umgehen kann. Zu diesem Behufe wird in Hinsicht auf ihre Mächtigkeit, Ausdruckskraft und Komplexität eine gründliche Betrachtung solcher Grammatikformalismen gegeben, die in der Lage sind, sowohl linguistisches, als auch Domänenwissen zu repräsentieren. Insbesondere werden S-TAGs, eine komprimierende Variante der schwach kontext-sensitiven Tree Adjoining Grammars gewürdigt. Kondensierung durch Faktorisierung erlaubt und erhält die explizite Repräsentation von Unterspezifikation. Dies ist aus Performanzgründen, insbesondere für den Generierungsfall, wichtig. Es stellt sich dabei heraus, dass sich S-TAGs sehr gut zur Faktorisierung von TAGs eignen, ohne die Lokalitätsprinzipien von TAGs zu verletzten. Ein Beweis zeigt, dass S-TAGs stark äquivalent zu TAGs sind. Ein weiterer Beweis zeigt, dass S-TAGs die Sprache LBach enthalten; dies gilt als Evidenz für die starke Ausdruckskraft von TAGs. Schabes` Earley-basierter TAG-Parser wurde für das direkte Parsen von S_TAGs angepasst, sodass Unterspezifikationen solange wie möglich erhalten bleiben. Der resultierende Algorithmus wurde zu einem reversiblen Praser/Generator umgestaltet, um ihn sowohl für die Analyse, als auch für die Generierung einsetzen zu können. Die worst case time complexity beträgt 0(n6), doch weitere Untersuchungen an S-TAGs zeigten ein signifikantes Verbesserungspotential für den average case auf: Für eine Variante der S-TAGs, den Simplified S-TAGs, gilt eine average case complexity von 0(n4). Ein Generierungssystem benötigt Wissen über die Sprache (how-to-say), wie auch Wissen über die Anwendungsdomäne (what-to-say). Um keine neuen natürlichsprachlichen Grammatiken und Wissensbanken entwickeln zu müssen, wurde ein abstrakter Mechanismus für die Transformation von plan- und regelbasierten Wissensbanken in S-TAGs entworfen und auf die Englische Grammatik XTAG (für das how-to-say) und das Entscheidungssystem VOTE (für das what-to-say) angewandt. Diese Arbeit besteht im Wesentlichen aus fünf Teilen: Kapitel 2 führt in die Welt der natürlichsprachlichen Generierung ein und gibt eine übersicht über verschiedene allgemeine Systemarchitekturen und einigen Implementationen. Kapitel 3 untersucht in Hinblick auf ihre linguistischen und formalen Eigenschaften TAGs, S-TAGs und einige grundsätzliche Erweiterungen, auf die viele prominente Varianten aufbauen. In Kapitel 4 wird ein direkter, reversibler Parser/Generator Algorithmus entwickelt und seine Korrektheit und Komplexität bewiesen. Simplified S-TAGs werden als Folge einer Untersuchung der Ableitung von S-TAGs definiert und ein Beweis ihrer average case time complexity geführt. Kapitel 5 schließt sich an mit einer übersicht über die Systeme XTAG und VOTE, sowie ihrer überführung in den S-TAG Formalismus. Schlussendlich werden in Kapitel 6 einige Generierungsbeispiele angeführt, die die grundsätzlichen Charakteristiken eines integrierten und uniformen Generierungsansatzes verdeutlichen.