Zum Inhalt springen

KI-Bots auf eigener Website blockieren

Generative KI’s werden mit öffentlich im Internet zugänglichen Daten trainiert. Der KI-Verarbeitung kann aber widersprochen werden.

KI-Bots mit robots.txt blockieren

Meistens existiert bereits eine robots.txt, die nur entsprechend erweitert werden muss. Falls die robots.txt dynamisch vom verwendeten Content-Managementsystem (CMS), wie beispielsweise WordPress erzeugt wird, müssen die Änderungen im jeweils verwendeten SEO-Plugin (z.B. Rank Math SEO) durchgeführt werden.

Die robots.txt kann beispielsweise um nachfolgende Einträge erweitert werden:

User-agent: AdsBot-Google
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: AwarioRssBot
Disallow: /

User-agent: AwarioSmartBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: DataForSeoBot
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: FriendlyCrawler
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GoogleOther
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: img2dataset
Disallow: /

User-agent: ImagesiftBot
Disallow: /

User-agent: magpie-crawler
Disallow: /

User-agent: Meltwater
Disallow: /

User-agent: omgili
Disallow: /

User-agent: omgilibot
Disallow: /

User-agent: peer39_crawler
Disallow: /

User-agent: peer39_crawler/1.0
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: PiplBot
Disallow: /

User-agent: scoop.it
Disallow: /

User-agent: Seekr
Disallow: /

User-agent: YouBot
Disallow: /Code-Sprache: HTTP (http)

Die Liste hat keinen Anspruch auf Vollständigkeit. Die robots.txt muss zudem ständig gepflegt werden, da immer wieder neue KI-Bots erscheinen werden. Auf darkvisitors.com, github.com/ai-robots-txt und vergleichbaren Seiten sollte daher regelmäßig nach neuen KI-Bots Ausschau gehalten werden.

Ein 100% Schutz bieten die Einträge in der robots.txt aber natürlich nicht. Bots könnten die Einträge einfach ignorieren. Zudem könnten sich Bots theoretisch auch als normale Browser und Website-Besucher:innen tarnen und vollkommen intransparent Websites besuchen.

KI-Bots mit .htaccess blockieren

Manche KI-Betreiber stellen auch die IP-Adressbereich der Bots zur Verfügung, die sich über eine .htaccess-Datei oder Firewall blockieren lassen.

Order Allow,Deny

# Anthropic Claude - https://docs.anthropic.com/en/api/ip-addresses
Deny from 160.79.104.0/23
Deny from 2607:6bc0::/48

# OpenAI ChatGPT - https://platform.openai.com/docs/plugins/bot/ip-egress-ranges
Deny from 23.98.142.176/28
Deny from 40.84.180.224/28
Deny from 13.65.240.240/28
Deny from 20.97.189.96/28
Deny from 20.161.75.208/28
Deny from 52.225.75.208/28
Deny from 52.156.77.144/28
Deny from 40.84.180.64/28

Allow from allCode-Sprache: PHP (php)

Bei IP-Sperren sollte allerdings genau geprüft werden, was wirklich gesperrt wird. Beispielsweise verwendet der FacebookBot aktuell scheinbar die gleichen IP-Adressbereiche wie der FacebookCrawler. Wenn auf Facebook ein Link geteilt wird holt der FacebookCrawler Vorschaubild etc. von der Website ab. Diese Funktion möchte man vielleicht nicht unbedingt blockieren.

Natürlich bietet auch eine Sperre auf IP-Adressebene keinen 100% Schutz. Die KI-Bots könnten auch vollkommen andere IPs verwenden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

4 × eins =