AI-Crawler in robots.txt blockieren?

Im Admin-Dashboard des Forums lässt sich leicht sehen, dass Crawler einen beträchtlichen Teil des Traffics zum Forum ausmachen:

Ich frage mich regelmäßig, wieviele Bots darunter sind, die das Web für KI-Trainingdaten abgrasen. Und dann frage ich mich: Wollen wir, dass die hier durch die Community erstellten Inhalte für das Trainieren von „KI“-Anwendungen genutzt werden?

Das Forum dient ja der Vernetzung richtiger Menschen, die Fragen, Antworten und Diskussionsbeiträge zu einem bestimmten Themenbereich verfassen, um gemeinsam zu lernen und sich gegenseitig zu unterstützen. Dieser menschenzentrierte Ansatz steht im starken Gegensatz zur Idee einer Maschine, die einen die Anworten serviert.

Wir stecken teilweise einigen Aufwand in unsere Posts. Ich persönlich möchte damit die Community und aufbauen und konkreten Menschen mit ihren Fragen helfen, fühle mich aber nicht wohl, wenn damit andere ihre (noch) gehypten und umweltschädlichen Geschäftsmodelle umsetzen.

Die robots.txt bietet eine Möglichkeit, zumindest klarzustellen, dass KI-Bots unerwünscht sind, ob sie sich dann daran halten ist eine andere Frage. Es gibt hier z.B. auch bereits ein Repo, in dem eine robots.txt für das Blocken von KI-Bots gepflegt wird: GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.

Es gibt dazu auch ein Topic im Meta-Discourse-Forum: How to prevent community content from being used to train LLMs like ChatGPT? - community - Discourse Meta

1 „Gefällt mir“

Der Link zur robotx.txt funktioniert nicht direkt, Discourse funkt dazwischen und zeigt „Hoppla, diese Seite existiert nicht“ an. Man muss die Seite neuladen oder gleich in einem neuen Tab öffnen.

Ich bin da eher leideschaftslos. Den Nutzungsbedingungen nach sind Beiträge nicht automatisch frei lizensiert. Solange die Bots keinen unverhältnismäßigen Aufwand erzeugen, sollen sie doch crawlen. Ob die Inhalte für KI verwenden werden oder nicht hängt vermutlich nicht daran, was wir davon halten.

1 „Gefällt mir“

Ich finde das auch aus ökologischer Sicht eine sehr gute Idee: Je weniger Daten in diese Maschinen eingehen, desto weniger Strom/CO2 wird verbraucht.

2 „Gefällt mir“

@acka47 Kann man diese Statistik noch etwas feiner aufteilen? Ich würde wäre insbesondere an einer Unterscheidung zwischen klassischen Suchmaschinen und AI-Tools interessiert, soweit leicht zuordenbar ist.

Die Indexierung in Suchmaschinen finde ich schon eine gute Sache und dafür müssen die Crawler halt die Seiten immer mal wieder abgrasen. So etwas würde ich nicht abklemmen, außer ein Crawler benimmt sich nicht und beeinträchtigt die normalen Webdienste durch zu viele Anfragen in kürzester Zeit o.ä…

Prinzipiell bin ich bei dem Ansatz mit der robots.txt auch eher etwas skeptisch. Man erreicht dadurch ja nur den Ausschluss von bekannten Crawlern, welche sich auch an solche Regeln halten. Es wäre dann immer noch sehr leicht den User-Agent bei den Anfragen zu ändern und nicht mehr geblockt zu werden. Und es könnte eher die Gefahr geben, dass man am Ende etwas ausschließt, wo eine Indexierung eigentlich nützlich sein könnte für die hilfesuchenden Menschen.

Gute Frage, die ich mir ja selbst gestellt habe, ohne das genauer zu untersuchen. Discourse stellt u.a. einen Bericht mit Webcrawler-Browserkennungen bereit, den ich mal für das laufende Jahr exportiert und hier hochgeladen habe: A Discourse export of web crawler user agents requesting metadaten.community from 2024-01-01 to 2024-08-13 · GitHub

Mir ging es wohlgemerkt nie darum, sämtliche Crawler zu blocken, weshalb ich ja auch auf GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block. verweisen habe, das sich nur auf AI bots bezieht. Die Foreninhalte sollten natürlich in den gängigen Suchmaschinen indexiert werden. Auch finde ich CommonCrawl sehr sinnvoll, der sicher viel benutzt wird zum Trainieren von AI-Tools, was aber kein Grund sein sollte, den CommonCrawl-Bot zu blockieren.

Ich stimme dir zu. Es wäre aber ein Anfang und wir könnten bei Bedarf immer noch weitere Maßnahmen diskutieren. Ich habe z.B. kürzlich im Fediverse einen Ansatz gesehen, wo AI Bots, die sich nicht an die robots.txt halten, Müll-Inhalte zugespielt bekommen, um deren Lerndaten zu versauen. Finde das aber auf die Schnelle gerade nicht wieder…

2 „Gefällt mir“

Badbots, die sich nicht an die robots.txt halten, versuchen wir im Webserver mit fail2ban zu blocken. Das funktioniert auch einigermaßen gut anhand des user agent string. Die so geblockten Bots tauchen in der Auflistung von Discourse nicht auf.

2 „Gefällt mir“

Danke für die weiteren Daten! Mit einem einfachen Abgleich von der ai.robots.txt Liste habe ich folgendes bekommen: Von den insgesamt 3694 Crawler-Aufrufen sind 987 als AI-Cralwer eingestuft worden, die restlichen 2707 nicht. Die AI-Crawler-Aufrufe kommen von folgenden Tools:

AI Tool Summe Seitenaufrufe
Amazonbot 259
facebookexternalhit 182
ImagesiftBot 161
GPTBot 125
ClaudeBot 95
CCBot 71
GoogleOther 39
Applebot 33
Bytespider 20
FriendlyCrawler 1
OAI-SearchBot 1
2 „Gefällt mir“

Das finde ich auf den ersten Blick einerseits sehr charmant, andererseits frage ich mich, wie die sich gegen Müll bzw. falsche/manipulierte Inhalte schützen.

In-House kam der Hinweis auf Aggressive AI Harvesting of Digital Resources und dass es dazu Online-Sessions „Fedora AI Discussion Series“ gibt. Immer erst Montag des Monats 17h (unserer Zeit).

Der Hinweis findet sich aber auch im Newsletter mit dem Zoom link: Launch Meeting - Zoom Oder auch in diesem Google Group Fedora Tech-Post

In der weitergeleiteten Mail steht noch ein Passwort und „Please feel free to share the invite broadly.“. Äh, das ist 900000 + 54000 + 794. :face_with_peeking_eye: