Was ist ein Crawler
Crawler dienen dem sammeln, analysieren und indexieren der Daten und Feeds im Internet. Wenn ein Crawler eine Website besucht, liest er alle Inhalte (Texte) aus, speichert die jeweiligen Informationen in einer Datenbank (Cache) und erfasst alle internen und externen Links welche auf dieser Webseite vorhanden sind. Über die gesammelten Informationen werden nach und nach alle Websites des Internets erfasst, sofern sie mindestens einmal von einer anderen Website verlinkt sind.
Der Begriff Crawler bürgerte sich erstmals 1994 durch die erste öffentlich erreichbare Suchmaschine “WebCrawler” ein.
Ein Webseitenbetreiber kann in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler spezifisch mitteilen, welche Seiten er indizieren soll und welche er nicht indizieren soll.