Crawling: Steuern Sie Ihre Website mit Meta-Tag Robots

Mit dem Meta-Tag Robots steuern Sie das Crawling Ihrer Website wirklich effizient

Meta-Tag Robots geben Ihnen umfassende Möglichkeiten, das Crawling ihrer Website durch die Suchmaschinen gezielt zu steuern. Durch die Anpassung des Meta-Robots-tags legen Sie Zugriffsoptionen auf Ihre Unterseiten fest und beeinflussen damit die Indexierung. Erfahren Sie in diesem Beitrag, wie Sie mit den Meta-Tag Robots die Platzierung Ihrer Seite im Suchmaschinen-Index optimieren können.

Robots.txt: Der Türsteher für Ihre Webseite

Eine Robots.txt ist zunächst eine einfache Textdatei, mit der Sie den Zugriff von Suchmaschinen-Crawlern auf die Bereiche Ihrer Domain steuern können. Die Robots.txt erlaubt oder verbietet, je nach Einstellung, den Zugriff auf Verzeichnisse, Dateien oder die gesamte Domain. Das „Zutrittsverbot“ der Crawler auf bestimmte Bereich ist immer dann sinnvoll, wenn Sie sensible Daten oder systemspezifische Verzeichnisse von einer Indexierung ausschließen wollen. Auch unwichtige Seiten sollten immer vom Crawling ausgeschlossen werden, denn das „Crawling-Budget“ der Suchmaschinen ist begrenzt! Bei kleineren Webseiten ist dies ein unwichtiger Faktor – bei umfangreichen Online-Shops mit zahlreichen URLs jedoch kann die Begrenzung fatal sein. Denn wenn der Suchmaschinen-Crawler einfach aufhört, Seiten zu indexieren, werden unter Umständen wichtige Seiten nicht in den Suchergebnissen aufgeführt.

Die Robots.txt Datei fungiert also als Türsteher zu Ihrer Webseite. Allerdings ist kein Verlass drauf, dass die Crawler auch wirklich so arbeiten, wie Sie es in der Robots.txt eingestellt haben. Denn die in der Datei aufgeführten Anweisungen sind lediglich als Richtlinien zu verstehen – ohne Garantie, dass sich die Crawler der Suchmaschinen auch an die Anweisungen halten. So kann es passieren, dass Sie eine Seite in den Robots.txt von der Indexierung ausgeschlossen haben – und dann feststellen, dass die Seite dennoch im Index erscheint. Der Grund dafür sind externe Links, die für die Crawler zugänglich sind und die auf Ihre Webseite verweisen. Eine Robots.txt steuert also das Crawling – aber nicht die eigentliche Indexierung. An diesem Punkt kommen die Meta-Tag Robots ins Spiel.

Was genau sind Meta-Tag Robots?

Meta-Tag Robots sind HTML-Code-Angaben, die in den Bereich einer Website integriert werden. Mit diesen Tags lässt sich für jede einzelne Seite einer Domain das Verhalten der Crawler und vor allem das Indexieren der entsprechenden URL steuern. Ein Meta-Robot-Tag legt unter anderem fest:

Ob eine Seite in den Suchergebnissen angezeigt wird – oder eben nicht
Ob vorhandene Bilder indexiert werden sollen
Ob vorhandenen Links auf der jeweiligen Seite gefolgt werden soll oder nicht
Ob die Linkkraft jeder Seite über ein follow/nofollow Attribur weitergegeben werden darf
Ob Snippets für die Seite in den Suchergebnissen angezeigt werden sollen
Ob gecachte Ergebnisse der Seite indexiert werden sollen

Die Robots sind also als Feinjustierung zu verstehen, die den Suchmaschinen genaue Anweisungen zu einer Indexierung mit auf den Weg geben. Auch wenn eine Robots.txt für die Website vorhanden ist, sind Meta Robots im Quellcode der Seite immer das entscheidende Kriterium für das Vorgehen der Crawler!

Jedes CMS-System hat dies für die gesamte Webseite bereits vorinstalliert. Um jedoch einzelne URLs aus dem Index zu entfernen, sind Plugins oder Extensions notwendig. Bei WordPress z.b. SEO Yoast oder The SEO Framework.

Meta-tag Robots
Hier sehen Sie die Einstellungsmöglichkeiten im Plugin „The SEO Framework“

Mit welchen Attributen funktionieren die Meta-Tag Robots?

Damit die Robots-Meta-Tags ihre Arbeit aufnehmen können, müssen sie im Quelltext einer Seite im „“- Bereich platziert werden. Ein typischer Robots-Meta-Tag sieht dabei so aus:

Ersichtlich wird hier, das ein Robots-Meta-Tag aus zwei Attributen besteht, nämlich Name und Content. Durch die beiden Attribute lässt sich das Crawling für jede einzelne Seite gezielt steuern.

Name

Mit dem Attribut „name“ geben Sie den Crawlern den Befehl, den Anweisungen im Robots-Meta-Tag zu folgen. Wenn Sie allen Crawlern Anweisungen geben möchten, dann verwenden Sie ganz einfach name=“robots“. Diese Standardeinstellung unterscheidet aber nicht nach Suchmaschinen. Wenn Sie gezielt verschiedene Crawler ansprechen möchten – beispielsweise wenn Ihre Seite bei Google nicht indexiert werden soll, bei Bing aber schon. Möchten Sie mehrere Crawler gleichzeitig ansprechen, benutzen Sie mehrere Tags simultan:

Content

Mit dem Content-Attribut werden die Anweisungen an den User-Agent, eine Bezeichnung für die Bots und Crawler der Suchmaschinen, spezifiziert. Zu den diversen Anweisungen, die Sie den Agents geben können, gehören:

Index: Die entsprechende Seite wird in den Index der Suchmaschine aufgenommen. Diese Anweisung muss nicht explizit gegeben werden. Denn sofern keine „noindex“ Anweisung angegeben wird, gehen die Agents automatisch von „index“ aus!
Noindex: Mit dieser Anweisung untersagen Sie die Aufnahme der Seite in den Index der Suchmaschine. Auch eine Anzeige in den Suchergebnissen (SERPs) wird mit „noindex“ ausgeschlossen.
Follow: Den vorhandenen Links auf der Seite wird gefolgt.
Nofollow: Den vorhandenen Links auf der Seite wird nicht gefolgt.
All: Mit „all“ werden die Anweisungen „index“ und „follow“ zusammengefasst.

Neben diesen Grundanweisungen lassen sich durch Content-Attribute aber auch spezielle Anweisungen geben:

Nopagereadaloud: Die Seite darf von Sprachdiensten nicht laut vorgelesen werden
Nositelinkssearchbox: Für die Webseite darf in den SERPs keine Suchbox angezeigt werden
Unavailable_after: Mit dieser Anweisung legen Sie einen Zeitpunkt fest, nach dem die Seite nicht mehr indexiert werden soll. Die Anweisung ist besonders praktisch bei Inhalten, die ein „Ablaufdatum“ in ihrer Relevanz haben – beispielsweise wenn es um Termine für ein Event geht.

Mit den Meta-Tag Robots die Snippets gezielt steuern

Mit den Meta-Robots lässt sich nicht nur das Indexierverhalten der Crawler steuern – sondern sie gewähren auch das „Feintuning“ der Snippets, die in den Suchergebnissen angezeigt werden. Seit September 2019 ermöglicht es Google, die Vorschau-Inhalte über die Tags feiner als zuvor zu konfigurieren:

Max-snippet:[number]: Mit dieser Angabe können Sie die maximale Textlänge Ihrer Snippets in Zeichen definieren.
Nosnippet: Unterbindet die Anzeige von Snippets in den Suchergebnissen.
Max-image-preview:[setting]: Mit “none”, “standard” oder “large” spezifizieren Sie hier die maximale Größe eines Bildes in der Vorschau.

Das interessante ist, dass sich mehrere der Anweisungen im „“- Bereich der Seite kombinieren lassen. So erhalten Sie eine bestmögliche Kontrolle über die Snippets – und können die Vorschau ganz exakt an dem Bedarf ausrichten.

Fazit

Mit der robots.txt Datei allein lassen sich die Crawler der Suchmaschinen nur bedingt steuern. Erst mit dem Einsatz von Robots-Tags im „“- Bereich erhalten Sie eine bestmögliche Kontrolle – und steuern gezielt, welche Unterseiten Ihres Website-Projektes durch die Suchmaschinen indexiert werden sollen. Die Verwendung der Robots-Tags ist in jedem CMS System bereits vorinstalliert. Wenn Sie jedoch einzelne URLs aus dem Index entfernen möchten, sind zumeist Plugins oder Extension notwendig – beispielsweise SEO Yoast oder The SEO Framework bei WordPress. Gerne unterstützen wir Sie bei der Optimierung Ihrer Robots-Tags! Rufen Sie uns doch gleich einmal an und lassen Sie sich unverbindlich durch unsere Experten beraten.