The robot/spider/crawler is part of a thesis, in which a large amount of englich-german parallel text is needed. The bot tries to find websites, that have a twin-page of corresponding language. A maximum number of URLs is requested inside every authority, afterwards never again. It obeys the "robot-exclusion-standard" and the robot can be excluded by adding the user-agent-name "http://www.uni-koblenz.de/~flocke/robot-info.txt" (without quotation-marks) under disallow-paths in the "robots.txt"-file on your site. ----------------------------------------------------------- Der Webroboter läuft im Rahmen einer Diplomarbeit, in der ein möglichst großes Korpus an englisch-deutschen Texten benötigt wird. Dazu werden gezielt Webseiten gesucht, zu denen ein Gegenstück in der jeweils anderen Sprache existiert. In jeder authority wird eine maximale Anzahl URLs abgefragt, danach nie mehr. Der "Standard" zum Ausschließen von Robotern wird beachtet und der Roboter läßt sich im robots.txt unter dem Namen "http://www.uni-koblenz.de/~flocke/robot-info.txt" (ohne Anführungszeichen) in disallow- Pfaden ausschließen. ----------------------------------------------------------- email to Martin Flocke: flocke@uni-koblenz.de