Training-Bot vs. Such-Bot: robots.txt richtig konfigurieren – KI-Training blockieren ohne Zitier-Sichtbarkeit zu verlieren

Seit 2025 betreiben OpenAI, Anthropic und Google je zwei getrennte Crawler – einen fürs Training, einen für die Suche. Wer beide in einen Topf wirft, verschenkt Sichtbarkeit in ChatGPT, Perplexity und Google AI Overviews. So trennen Sie sauber.

Cloudflare fragt seit 2025 jede neue Domain bei der Anmeldung, ob KI-Crawler erlaubt sein sollen – Standard ist jetzt blockieren. Viele lesen das als Ja-oder-Nein-Frage. Das ist falsch, und es kostet Sichtbarkeit.

Die neue Cloudflare-Abfrage, die die Frage verschoben hat

Bis vor Kurzem mussten Website-Betreiber KI-Crawler aktiv aussperren, wenn sie das wollten – Opt-out. Cloudflare hat das umgedreht. Jede neue Domain wird bei der Registrierung gefragt, ob sie KI-Crawler zulassen will, und startet im Zweifel mit Blockade. In Cloudflares eigenen Worten beginnt damit „jede neue Domain mit der Voreinstellung Kontrolle“, ohne dass man Einstellungen manuell zum Opt-out konfigurieren muss.

Der Grund dahinter ist nachvollziehbar. Trainings-Crawler entnehmen Websites sehr viel mehr Wert, als sie zurückgeben. Cloudflare misst das als Verhältnis von Crawls zu Weiterleitungen: Google holt sich im Juni 2025 rund 14 Seiten pro Verweis zurück auf die Quelle. Bei OpenAI lag dieses Verhältnis bei 1.700:1, bei Anthropic bei 73.000:1. Anders gesagt: Tausende Abrufe, ein einziger Besucher zurück.

Daraus ziehen die meisten Betreiber den naheliegenden, aber teuren Schluss: Wenn die KI-Firmen so viel nehmen und so wenig zurückgeben, dann eben alle aussperren. Die Krux ist, dass „die KI-Crawler“ keine homogene Gruppe mehr sind. Cloudflare selbst unterscheidet ausdrücklich: Trainings-Crawler verarbeiten Inhalte, um Fragen direkt in den eigenen Apps zu beantworten, und schicken kaum Traffic zurück. Such-Crawler tun etwas anderes.

Die strukturelle Trennung: Trainings-Crawler ≠ Such-Crawler

Hier liegt die Tatsache, die in den meisten Audits noch nicht angekommen ist: Seit 2025 betreiben die drei dominanten Anbieter – OpenAI, Anthropic und Google – jeweils zwei getrennte Crawler-Identitäten. Eine holt Daten fürs Modelltraining, die andere indexiert für die Echtzeit-Suche und das Zitieren von Quellen. Das sind unterschiedliche User-Agent-Strings, und sie gehorchen unterschiedlichen Regeln in Ihrer robots.txt.

Bei OpenAI heißt der Trainings-Crawler GPTBot, der Such-Crawler OAI-SearchBot. OpenAI schreibt selbst: Ein Disallow für GPTBot signalisiert, dass die Inhalte nicht ins Training generativer Modelle einfließen sollen. OAI-SearchBot dagegen „dient dazu, Websites in den Suchergebnissen der ChatGPT-Suchfunktionen anzuzeigen“. Wer nur GPTBot blockiert, lässt OAI-SearchBot völlig unberührt.

Genau das ist der Punkt, an dem die Ja-oder-Nein-Sicht zusammenbricht. Sie können KI-Training unterbinden und gleichzeitig in der KI-Suche zitierbar bleiben. Es sind zwei Hebel, nicht einer. Wer beide gleichzeitig umlegt, weil er denkt, es sei ein einziger Schalter, schützt nichts Wertvolles und verliert dafür seine Zitier-Sichtbarkeit.

Die vollständige Crawler-Taxonomie

Diese Tabelle ist die Referenz, die ich in jedem Audit zur Hand habe. Pro Anbieter steht links die Trainings-Identität, rechts die Such- und Zitier-Identität – und dahinter, was ein Disallow Sie tatsächlich kostet.

  • OpenAI – GPTBot (Training): trainiert generative Modelle. Disallow = Ihre Inhalte fließen nicht ins Training. Kein Verlust an Zitier-Sichtbarkeit.
  • OpenAI – OAI-SearchBot (Suche/Zitate): zeigt Websites in den ChatGPT-Suchergebnissen. Disallow = Ihre Seite erscheint nicht mehr in ChatGPT-Search-Antworten (nur noch als reiner Navigations-Link).
  • Anthropic – ClaudeBot (Training): sammelt Webinhalte fürs Modelltraining. Disallow = künftige Materialien werden aus den Trainingsdaten ausgeschlossen. Kein Zitier-Verlust.
  • Anthropic – Claude-SearchBot (Suche/Zitate): indexiert für die Suchqualität. Disallow = laut Anthropic „kann die Sichtbarkeit und Genauigkeit Ihrer Seite in den Suchergebnissen der Nutzer verringern“. (Zusätzlich gibt es Claude-User, der Seiten live auf Nutzeranfrage abruft.)
  • Google – Google-Extended (Training): ein reines Produkt-Token, kein eigener Crawler. Steuert, ob Inhalte ins Gemini-Training einfließen. Disallow lässt Google-Suche und Ranking unberührt – kein Zitier-Verlust.
  • Google – Googlebot (Suche/AI Overviews): der klassische Such-Crawler, der zugleich AI Overviews und den AI Mode speist. Disallow = Sie verschwinden aus der Google-Suche und damit aus den KI-Antworten obendrein. Praktisch nie sinnvoll.
  • Perplexity – PerplexityBot (vereint): dient laut Perplexity ausschließlich dazu, Websites in den Suchergebnissen anzuzeigen und zu verlinken, „nicht, um Inhalte für KI-Basismodelle zu crawlen“. Kein separater Trainings-Bot. Disallow = keine Zitate in Perplexity.
  • Meta – Meta-ExternalAgent (nur Training): crawlt Webinhalte fürs Modelltraining. Keine Such- oder Zitierfunktion. Ein Disallow ist eine reine IP-Schutz-Entscheidung – ohne jeden Nachteil für die Zitierbarkeit.

Die robots.txt-Syntax: chirurgische Regeln zum Kopieren

Bevor die Beispiele kommen, eine Regel, an der die meisten Fehler hängen: In der robots.txt hat eine namentliche Bot-Regel Vorrang vor der Sammelregel User-agent: *. Crawler verarbeiten die Gruppen von oben nach unten und befolgen nur die erste, spezifischste Gruppe, die auf ihren User-Agent passt. Ein OAI-SearchBot liest also seine eigene Gruppe und ignoriert User-agent: * komplett.

Haltung A – Training blockieren, Suche erlauben. Das ist für die meisten B2B-Seiten mit schützenswerten Inhalten die richtige Antwort: Modelltraining unterbinden, Zitier-Sichtbarkeit behalten.

# Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

# Such- und Zitier-Crawler ausdruecklich erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Googlebot
Allow: /

Haltung B – alles KI blockieren. Hier sperren Sie Trainings- und Such-Crawler gemeinsam aus. Der Preis: Sie sind in ChatGPT Search, Claude und Perplexity nicht mehr zitierbar. Wichtig – sperren Sie nicht Googlebot, sonst verlieren Sie zusätzlich die normale Google-Suche; Google-Extended reicht, um nur das Gemini-Training zu stoppen.

User-agent: GPTBot
User-agent: OAI-SearchBot
User-agent: ClaudeBot
User-agent: Claude-SearchBot
User-agent: Claude-User
User-agent: PerplexityBot
User-agent: Google-Extended
User-agent: Meta-ExternalAgent
Disallow: /

Haltung C – alles erlauben. Das ist die aktuelle Haltung von Digital Domination, und für eine Marke, die in der KI-Suche gefunden werden will, ist sie verteidigbar. Die robots.txt bleibt minimal und überlässt die Zitier-Frage dem Inhalt, nicht der Sperrliste.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

In den Audits, die ich durchführe, sehe ich einen Fehler häufiger als jeden anderen: eine einzige Disallow-Zeile unter User-agent: *, die still die Zitierfähigkeit killt – während der Betreiber glaubt, er schütze nur sein geistiges Eigentum. Ein pauschales Disallow: / unter dem Sternchen trifft eben auch OAI-SearchBot und PerplexityBot. Wer Training meint, muss die Bots beim Namen nennen.

WordPress: drei Wege zur Umsetzung

WordPress erzeugt automatisch eine virtuelle robots.txt, sobald keine physische Datei im Site-Root liegt. Standardmäßig enthält sie nur User-agent: * und Disallow: /wp-admin/. SEO-Plugins können diese virtuelle Datei erzeugen oder überschreiben – deshalb ist es entscheidend zu prüfen, welche Fassung unter /robots.txt wirklich ausgeliefert wird.

  1. Yoast SEO: Einstellungen → Werkzeuge → Datei-Editor. Dort bearbeiten Sie die robots.txt direkt im Backend. Existiert noch keine physische Datei, legt Yoast sie für Sie an.
  2. Rank Math: das eigene robots.txt-Modul unter den allgemeinen Einstellungen. Funktional identisch – ein Editorfeld, das die Datei schreibt.
  3. Roher Dateizugriff: über den Dateimanager des Hosters oder per SSH, wenn ein Plugin die virtuelle Datei überschrieben hat oder zwei Plugins sich widersprechen. Eine physische robots.txt im Root sticht jede virtuelle Variante.

Die häufigste Falle: Ein Plugin generiert die Datei bei jedem Speichern neu und überschreibt Ihre Handarbeit. Verlassen Sie sich nicht auf das Editorfeld – rufen Sie ihre-domain.de/robots.txt im Browser oder per curl auf und lesen Sie, was tatsächlich ausgeliefert wird. Nur das zählt. Wenn Sie ohnehin Hosting und Plugin-Stack ordnen wollen, ist unsere WordPress-Migration der Punkt, an dem solche Konflikte verschwinden.

Entscheidungsrahmen für DACH-B2B: Wann sich Training-Blockieren lohnt

Ob Sie Training blockieren sollten, hängt nicht von der Stimmung gegenüber KI-Firmen ab, sondern von drei Fragen.

  1. Ist Ihr Inhalt echtes geistiges Eigentum oder austauschbares Lehrmaterial? Eine proprietäre Methodik, ein Mandantenleitfaden, ein eigenes Bewertungsmodell – das ist schützenswert. Ein Blogbeitrag, der erklärt, was eine GmbH ist, ist es nicht.
  2. Verkaufen Sie an Käufer, die Sie über ChatGPT Search oder Perplexity finden könnten? Immer mehr B2B-Entscheider starten ihre Recherche in einem KI-Assistenten. Wenn Ihr Käufer dort sucht, ist Zitier-Sichtbarkeit ein Vertriebskanal, kein Nice-to-have.
  3. Haben Sie verdiente Medienberichterstattung, die die Modelle bereits gespeist hat? Wer durch Fachpresse, Studien oder Verzeichnisse längst in den Trainingsdaten steckt, gewinnt durch ein Disallow wenig – das Modell kennt Sie ohnehin.

Für die meisten B2B-KMU ohne Fremdberichterstattung kostet ein pauschaler Trainings-Block Zitier-Fläche, ohne nennenswerten IP-Schutz zu bringen – Ihr Material ist kein Geschäftsgeheimnis, und Sie geben freiwillig Suchsichtbarkeit auf. Für Kanzleien, Verlage und Agenturen mit echten Methodendokumenten dreht sich die Rechnung: Hier ist die Trennung – Training blockieren, Suche erlauben (Haltung A) – fast immer die richtige.

Verifizieren: Werden Ihre Regeln befolgt?

Eine Regel zu schreiben heißt nicht, dass sie greift. Drei Prüfungen, vom Schnellen zum Gründlichen:

  • Google-Crawler: Der robots.txt-Tester in der Google Search Console zeigt, ob Googlebot und Google-Extended Ihre Regeln so lesen, wie Sie es meinen.
  • OpenAI und Anthropic: Rufen Sie Ihre /robots.txt selbst ab und gleichen Sie die User-Agent-Strings mit der offiziellen Dokumentation ab – ein Tippfehler wie OAI-Searchbot statt OAI-SearchBot macht die Regel wirkungslos.
  • Tatsächlicher Traffic: Schauen Sie in die Server-Logs oder in Cloudflare Analytics → Tab „Bots“. Dort sehen Sie, welche Crawler wirklich kommen – und ob ein Disallow auch eingehalten wird.

Der letzte Schritt ist der wichtigste. robots.txt ist eine Bitte, kein Zaun. Seriöse Crawler von OpenAI, Anthropic und Google halten sich daran; die Logs bestätigen, dass die Abrufe nach dem Setzen der Regel zurückgehen. Bleibt ein blockierter Bot in den Logs aktiv, stimmt etwas mit Ihrer Syntax oder der ausgelieferten Datei nicht.

Zitierbarkeits-Check: Qualifiziert diese Konfiguration Ihre Seite für KI-Zitate?

Eine Seite, die OAI-SearchBot blockiert, kann von der ChatGPT-Suche nicht zitiert werden – ganz gleich, wie gut der Inhalt ist. Inhaltsqualität ist die Voraussetzung; die robots.txt ist das Tor davor. Bevor Sie an Inhalten feilen, prüfen Sie, dass das Tor offen ist:

  • OAI-SearchBot erlaubt ✓ (ChatGPT Search)
  • Claude-SearchBot erlaubt ✓ (Claude)
  • PerplexityBot erlaubt ✓ (Perplexity)
  • Googlebot erlaubt ✓ (Pflicht für AI Overviews und den AI Mode)

Ob Sie nach dieser Freigabe in den KI-Antworten tatsächlich auftauchen, lässt sich nur durch Beobachten herausfinden – nicht durch Raten. Genau dafür haben wir Cited gebaut: Es verfolgt in Echtzeit, wie ChatGPT, Claude, Perplexity, Gemini und die Google AI Overviews Ihre Marke und Ihre Wettbewerber beschreiben, und leitet daraus konkrete To-dos ab. Wer den ersten Schritt – ist meine Konfiguration überhaupt zitierfähig? – sauber gehen will, findet ihn in unserem KI-Sichtbarkeits-Audit.

Die robots.txt ist heute eine redaktionelle Richtlinienentscheidung über die Sichtbarkeit Ihrer Marke in der KI-Suche, festgehalten in zwei Zeilen – behandeln Sie sie auch so.