Crawler (Webcrawler/Spider/Bot) dienen dem sammeln, analysieren und indexieren von Daten und Feeds im Internet. Wenn ein solcher Crawler eine Webseite besucht, ließt er alle Inhalte (Texte) aus, speichert die Informationen in einer Datenbank (Cache) und erfasst alle internen und externen Links die auf dieser Webseite vorhanden sind. Über die gesammelten Informationen können nach und nach alle Webseiten im Internet erfasst werden, sofern sie mindestens einmal von einer anderen Webseite verlinkt sind.
Webcrawler bilden den Grundstein jeder modernen Suchmaschine und benötigen Unmengen an Rechenkapazität weshalb große Suchmaschinen ganze Cluster bereitstellen die die Aufgaben des crawlens übernehmen.
Der Begriff Crawler bürgerte sich erstmals 1994 durch die erste öffentlich erreichbare Suchmaschine „WebCrawler“ ein.
Ein Webseitenbetreiber kann in der Datei robots.txt und in bestimmten Meta-Tags im HTML-Header einem Webcrawler mitteilen, welche Seiten er indizieren soll und welche nicht, sofern sich der Crawler an das Protokoll hält.
- Soft 404 Bug bei Google: Ein Krimi in vier Akten - 20. April 2021
- Quo Vadis SEO? Welche Rolle spielt (der) SEO in der Zukunft - 20. April 2021
- Buch-Download: Content-Marketing entlang der Customer-Journey (Premium) - 14. April 2021
- SMX-Vortrag: Entitäten, Knowledge Graph & Natural Language Processing als Grundpfeiler der Google-Suche (Premium) - 12. April 2021
- Video: Entitäten basierte Suche – Alles zum Knowledge Graph, NLP, Ranking, E A T und Semantik in der SEO (Premium) - 26. März 2021