Ihre robots.txt ist wahrscheinlich für die falsche Ära optimiert
In jedem GEO-Audit, das ich öffne, prüfe ich als Erstes die robots.txt. Und bei den meisten deutschen B2B-Sites finde ich eines von zwei Mustern: Entweder blockieren sie die falschen Bots komplett, oder sie lassen alle vier herein, ohne zu verstehen, welcher davon das Füttern überhaupt wert ist.
Das ist kein kosmetisches Problem. Wer GPTBot pauschal sperrt, weil ihn ein Forenbeitrag von 2024 vor „Trainingsklau" gewarnt hat, schließt damit nicht automatisch ChatGPT Search aus – das läuft über einen ganz anderen Bot. Und wer alles offen lässt, verschenkt Server-Budget an Crawler, die statistisch null Besucher zurückschicken. Beide Fehler sind teuer, beide sind in fünf Minuten korrigierbar – wenn man weiß, welcher Bot was tut.
Dieser Beitrag ordnet die vier wichtigsten KI-Crawler nach der Frage, die zählt: Schickt dieser Bot Traffic zurück, oder nimmt er nur? Am Ende steht eine Matrix, die Sie diese Woche umsetzen können.
Die vier KI-Crawler 2026: vier Bots, vier Strategien
„KI-Crawler" ist kein einheitliches Ding. Ein Bot indexiert für eine Suchmaschine und verlinkt zurück. Ein anderer sammelt Trainingsdaten und verlinkt nie. Wer beide gleich behandelt, trifft eine schlechte Entscheidung. Hier die vier, die in deutschen Server-Logs am häufigsten auftauchen.
GPTBot (OpenAI) – Trainings-Crawler
GPTBot sammelt Inhalte für das Training von OpenAIs Foundation-Modellen. Er ist nicht der Bot, der ChatGPT Search speist – das macht OAI-SearchBot. Wer in ChatGPTs Suchergebnissen erscheinen will, muss GPTBot also nicht erlauben. User-Agent: GPTBot/1.0. OpenAI veröffentlicht eine gptbot.json mit verifizierbaren IP-Bereichen.
OAI-AdsBot (OpenAI) – der Neuzugang vom April 2026
Seit April 2026 in OpenAIs offizieller Crawler-Dokumentation gelistet. OAI-AdsBot besucht Landing-Pages, die als Werbeanzeige bei ChatGPT eingereicht wurden, und prüft sie auf Richtlinienkonformität. Die gesammelten Daten fließen ausdrücklich nicht ins Modelltraining. User-Agent: OAI-AdsBot/1.0; +https://openai.com/adsbot. Wichtig: Eine User-agent: GPTBot-Regel blockiert ihn nicht.
PerplexityBot (Perplexity) – Such-Indexierer
Laut eigener Dokumentation ein reiner Suchindexierungs-Bot, „nicht zum Crawlen von Inhalten für KI-Foundation-Modelle". Er findet Seiten und verlinkt sie in Perplexitys Antworten. Ihn in der robots.txt zu erlauben, ist der dokumentierte Weg, in Perplexity-Ergebnissen aufzutauchen. User-Agent: PerplexityBot/1.0; +https://perplexity.ai/perplexitybot.
ClaudeBot (Anthropic) – Trainings-Crawler ohne Rückkanal
Anthropic beschreibt ClaudeBot als Sammler von „Web-Inhalten, die potenziell zum Training beitragen könnten". Er respektiert Disallow und Crawl-delay. Entscheidend: Anthropic hat keinen Suchverweis-Mechanismus wie Perplexity oder ChatGPT Search. Claude-Antworten zitieren gelegentlich Quellen, erzeugen aber keine in Analytics messbaren Klicks. User-Agent: ClaudeBot/1.0; +claudebot@anthropic.com.
Der Volumen-Schock: Training überholt die klassische Suche
Die Lastverteilung hat sich gedreht. GPTBots Anteil an allen Crawler-Anfragen hat sich binnen eines Jahres fast verdreifacht: von 4,7 % im Juli 2024 auf 11,7 % im Juli 2025. Innerhalb der reinen KI-Bot-Kategorie sprang sein Anteil von 11,9 % auf 28,1 % – ein Plus von rund 16 Prozentpunkten in zwölf Monaten.
Im April 2026 überschritten trainingsdedizierte Crawler erstmals die 50-Prozent-Marke und beanspruchten 51,5 % aller erfassten KI-Bot-Anfragen. Googlebot verlor im selben Zeitraum so stark wie nie zuvor in der Aufzeichnung von Cloudflare Radar: von 38,7 % im Januar 2026 auf 31,6 % im März.
Für eine deutsche KMU-Site heißt das praktisch: Ein wachsender Teil Ihres Crawl-Budgets geht an Bots, die nichts zurückschicken. Im Cloudflare-Mittel dienten zuletzt rund 82 % des gesamten KI-Crawling-Volumens dem Modelltraining – nicht der Suche, nicht einer Nutzeraktion. Das ist Last ohne Gegenwert, wenn man sie nicht gezielt steuert.
Die Kennzahl, die wirklich zählt: das Crawl-to-Referral-Verhältnis
Crawl-Häufigkeit ist die falsche Optik. Die richtige Frage lautet: Wie viele Seiten muss ein Bot crawlen, bevor er einen Besucher zurückschickt? Diese Zahl – das Crawl-to-Referral-Verhältnis aus den Bot-Analytics von Cloudflare Radar (Stand März 2026) – entlarvt, wer Partner ist und wer Schmarotzer.
- Googlebot: 5:1 – fünf gecrawlte Seiten pro zurückgeschicktem Klick. Die klassische Suche bleibt der Maßstab.
- PerplexityBot: 111:1 – der mit Abstand effizienteste KI-native Crawler.
- GPTBot: 1.276:1 – über zehnmal weniger effizient als Perplexity.
- ClaudeBot: 23.951:1 – fast 24.000 gecrawlte Seiten pro Referral, weil es schlicht keinen Rückkanal gibt.
Lesen Sie das langsam: Der aggressivste Crawler ist nicht der wertvollste. ClaudeBot nimmt am meisten und gibt strukturell am wenigsten, weil Anthropic keinen Referral-Mechanismus betreibt. Wer ClaudeBot erlaubt, trägt zum Training bei – nicht zum eigenen Traffic. Das kann eine bewusste Markenentscheidung sein. Eine Traffic-Entscheidung ist es nicht.
Die Konsequenz fürs Audit: Optimieren Sie auf Zitierbarkeit, nicht auf Crawl-Frequenz. Ein Bot, der Sie 24.000-mal liest und nie verlinkt, ist für Ihre Pipeline irrelevant – egal wie oft er vorbeischaut.
OAI-AdsBot: der Neuzugang, für den Sie eine eigene Regel brauchen
OAI-AdsBot ist der Grund, warum eine alte robots.txt 2026 nicht mehr ausreicht. Er prüft Landing-Pages eingereichter ChatGPT-Anzeigen – ein kommerzieller Vorgang, kein Training. Und er hört nicht auf Ihre GPTBot-Regel. Wenn Sie GPTBot sperren, in der Annahme, damit „OpenAI komplett" geblockt zu haben, läuft OAI-AdsBot weiter ungehindert über Ihre Seiten.
Dazu kommt ein Verifizierungsproblem: Anders als bei GPTBot mit seiner gptbot.json hatte OpenAI zum Veröffentlichungszeitpunkt keine IP-Bereichsdatei (adsbot.json) publiziert. Sie können also schwerer prüfen, ob Traffic, der sich als OAI-AdsBot ausgibt, echt ist. Bis das nachgereicht wird, ist eine explizite Disallow-Regel die saubere Vorsichtsmaßnahme.
robots.txt-Entscheidungsmatrix: erlauben, sperren oder drosseln?
So fällt die Empfehlung für eine typische B2B-Site, die Reichweite in KI-Antworten sucht, ohne Trainings-Crawler kostenlos zu füttern:
- PerplexityBot → erlauben. Bestes Referral-Verhältnis, dokumentierter Weg in die Perplexity-Ergebnisse.
- OAI-SearchBot → erlauben. Speist ChatGPT Search und damit klickbare Verweise.
- ChatGPT-User → erlauben. Holt Seiten beim Live-Browsing eines echten Nutzers – das ist nachgelagerte Nachfrage.
- GPTBot → abwägen. Sperren spart Last, kostet aber keinen Such-Traffic. Erlauben ist eine reine Markenreichweiten-Wette.
- ClaudeBot → standardmäßig sperren, sofern Sie nicht bewusst Trainingsbeitrag wollen. Kein Rückkanal, schlechtestes Verhältnis.
- OAI-AdsBot → sperren, bis Verifizierung und kommerzieller Nutzen geklärt sind. Braucht zwingend eine eigene Regel.
Die referral-fokussierte Konfiguration, die ich den meisten Kunden empfehle, sieht so aus:
# Suche und Referral erlauben
User-agent: PerplexityBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Training und Werbung sperren
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: OAI-AdsBot
Disallow: /
Wer maximale Markenreichweite über Traffic-Effizienz stellt, gibt zusätzlich GPTBot und ClaudeBot frei (Allow statt Disallow) – sollte sich aber bewusst sein, dass diese beiden Zeilen praktisch keinen messbaren Besucher bringen. Die OAI-AdsBot-Zeile bleibt in jeder Variante stehen, bis OpenAI eine Verifizierungsdatei nachreicht.
Content-Strategie: zuerst für Perplexity schreiben, dann in Google ranken
Aus dem Referral-Verhältnis folgt eine klare Priorität. Perplexity verlinkt mit 111:1 über zehnmal effizienter als GPTBot (1.276:1) und in einer Größenordnung, die ClaudeBot nie erreichen wird. Für zitierfähige, redaktionelle Inhalte ist Perplexity damit das Ziel mit dem höchsten ROI im zweiten Halbjahr 2026.
Praktisch heißt das: Schreiben Sie Inhalte, die eine konkrete Frage sauber, attributierbar und in einem Absatz beantworten – die Form, die Perplexity gerne zitiert. Strukturieren Sie mit klaren H2-Fragen, belegen Sie Zahlen mit Quellen, halten Sie die Antwort vorn. Was für Perplexity zitierfähig ist, rankt anschließend meist auch in Google. Der umgekehrte Weg – erst auf Google optimieren, dann auf KI hoffen – funktioniert seltener.
Mein 5-Punkte-Check für KI-Crawler
Diese fünf Schritte gehe ich in jedem GEO-Audit durch. Sie können sie heute selbst starten:
- Server-Logs ziehen und nach User-Agents filtern. Wer crawlt wirklich – GPTBot, PerplexityBot, ClaudeBot, ChatGPT-User, OAI-AdsBot? Annahmen helfen nicht, Logs schon.
- Crawler verifizieren. Gleichen Sie behauptete Bots mit den offiziellen IP-Dateien ab (etwa gptbot.json). Bei OAI-AdsBot fehlt diese Datei noch – hier ist Skepsis angebracht.
- robots.txt gegen die Matrix prüfen. Sperren Sie GPTBot, aber lassen Sie OAI-AdsBot durch? Dann greift Ihre Regel nicht so, wie Sie denken.
- Crawl-to-Referral spiegeln. Setzen Sie das Crawl-Volumen aus den Logs gegen den tatsächlichen Referral-Traffic in der Analytics. Bots, die nur nehmen, werden sofort sichtbar.
- Eine eigene OAI-AdsBot-Regel setzen. Unabhängig von GPTBot, mit bewusster Allow/Disallow-Entscheidung – nicht als Nebeneffekt einer alten Trainings-Regel.
Häufige Fragen
Sollte ich GPTBot blockieren?
Eine Sperre spart Crawl-Last und Trainingsbeitrag, kostet aber keinen Such-Traffic – denn ChatGPT Search läuft über OAI-SearchBot, nicht über GPTBot. GPTBot ist übrigens der am häufigsten gesperrte KI-Crawler (rund 5,52 % aller Disallow-Regeln im Cloudflare-Netz). Für die meisten B2B-Sites ist Sperren vertretbar; nur wer auf reine Markenpräsenz im Modellwissen setzt, lässt ihn bewusst zu.
Was ist OAI-AdsBot und brauche ich eine eigene Regel?
OAI-AdsBot prüft seit April 2026 Landing-Pages von ChatGPT-Anzeigen. Er nutzt die Daten nicht fürs Training – und er ignoriert Ihre GPTBot-Regel. Ja, Sie brauchen eine eigene User-agent: OAI-AdsBot-Direktive, sonst läuft er ungesteuert.
Welcher KI-Crawler bringt 2026 den meisten Referral-Traffic?
Unter den KI-nativen Crawlern Perplexity – mit einem Crawl-to-Referral-Verhältnis von 111:1 (März 2026, Cloudflare Radar). GPTBot liegt bei 1.276:1, ClaudeBot bei 23.951:1. Die klassische Google-Suche bleibt mit 5:1 insgesamt die ergiebigste Quelle.
Schadet das Zulassen von KI-Crawlern meinem Google-Ranking?
Nein. PerplexityBot, OAI-SearchBot und ChatGPT-User sind eigenständige Crawler; sie erlauben oder sperren beeinflusst nicht, wie Googlebot Ihre Seiten bewertet. Sie steuern damit ausschließlich Ihre Sichtbarkeit in den jeweiligen KI-Antworten.
Wie prüfe ich, welche Bots meine Site tatsächlich crawlen?
Server-Logs nach User-Agent auswerten und gegen die offiziellen IP-Bereichsdateien der Anbieter abgleichen (etwa gptbot.json bei OpenAI). Bei Bots ohne veröffentlichte IP-Datei – derzeit OAI-AdsBot – lässt sich Echtheit nur eingeschränkt verifizieren, was für sich genommen ein Grund zur Vorsicht ist.
Nächster Schritt: das vollständige KI-Crawler-Profil Ihrer Site
Diesen Check führen wir als festen Bestandteil jedes GEO-Audits durch. Was uns auf deutschen B2B-Sites immer wieder begegnet: GPTBot gesperrt, OAI-AdsBot offen, ClaudeBot fleißig am Lesen ohne einen einzigen Referral – und eine robots.txt, die noch für 2024 geschrieben wurde. Wir ziehen Ihre Logs, gleichen die Crawler ab, spiegeln Crawl gegen Referral und übergeben Ihnen eine fertige Konfiguration. Wenn Sie wissen wollen, welche Bots Ihre Seiten wirklich füttern – und welche nur nehmen –, ist das der Einstieg.