Der Konflikt um das Training Künstlicher Intelligenz mit frei verfügbaren Internetinhalten erreicht eine neue Eskalationsstufe. Immer mehr Nachrichtenseiten blockieren die bekannte Archivplattform „Wayback Machine“ des Internet Archive. Hintergrund ist die Sorge vieler Medienhäuser, dass archivierte Artikel indirekt für das Training von KI-Modellen genutzt werden könnten. Eine aktuelle Analyse des Nieman Journalism Lab zeigt, dass sich inzwischen Hunderte Nachrichtenseiten gegen den Zugriff der Archiv-Crawler abschotten.
Besonders betroffen sind laut der Untersuchung lokale und regionale Nachrichtenseiten. Insgesamt sollen mittlerweile mehr als 340 Medienangebote den Zugriff des Internet Archive auf ihre Inhalte eingeschränkt haben. Zwischen Januar und Mai sei die Zahl der blockierenden Webseiten sogar um mehr als 50 Prozent gestiegen. In der ausgewerteten Stichprobe befinden sich inzwischen 382 Nachrichtenseiten, die den Archivdienst aussperren. Neben zahlreichen Regionalzeitungen beteiligen sich inzwischen auch große internationale Medienmarken wie die The New York Times an der Entwicklung. Europäische Medienhäuser wie El País oder Le Monde tauchen ebenfalls auf der Liste auf. Deutsche Nachrichtenseiten sind bislang offenbar noch nicht vertreten.
Grundlage der Analyse war die Auswertung zahlreicher robots.txt-Dateien von Nachrichtenseiten weltweit. Über diese Dateien können Webseitenbetreiber festlegen, welche automatisierten Bots und Suchmaschinen auf Inhalte zugreifen dürfen. Werden dort bestimmte Crawler ausgeschlossen, kann dies auch die Archivierung durch die Wayback Machine verhindern. Genau diesen Weg wählen nun immer mehr Medienunternehmen, um ihre Inhalte vor einer möglichen Weiterverwendung für KI-Systeme zu schützen.
Seit Monaten wächst der Unmut vieler Verlage gegenüber KI-Unternehmen. Kritiker werfen den Anbietern vor, massenhaft Inhalte aus dem Internet für das Training ihrer Modelle zu verwenden – häufig ohne ausdrückliche Zustimmung der Rechteinhaber. Zwar existieren mit robots.txt technische Möglichkeiten zur Einschränkung solcher Zugriffe, doch viele Medienhäuser bezweifeln, dass sich sämtliche KI-Unternehmen tatsächlich an diese Vorgaben halten. Selbst wenn direkte Zugriffe blockiert würden, könnten archivierte Inhalte der Wayback Machine weiterhin als alternative Quelle dienen. Genau diesen indirekten Weg versuchen immer mehr Verlage nun ebenfalls zu schließen.
Die Wayback Machine gilt seit Jahrzehnten als eines der wichtigsten Archive des offenen Internets. Der Dienst speichert Milliarden von Webseiten und ermöglicht es, ältere Versionen von Internetseiten aufzurufen und die Entwicklung des Webs über viele Jahre hinweg nachzuvollziehen. Für Journalisten, Historiker, Wissenschaftler und Entwickler ist die Plattform zu einer zentralen digitalen Gedächtnisinfrastruktur geworden.
Die Spannungen zwischen Archivierung, Urheberrecht und öffentlichem Interesse begleiten das Internet Archive allerdings schon seit Jahren. Bereits 2017 erklärte die Organisation, robots.txt-Vorgaben nicht mehr grundsätzlich rückwirkend zu beachten, um historische Inhalte langfristig zu sichern. Die aktuelle Welle an Sperren zeigt jedoch, wie stark sich der Druck durch den KI-Boom verschärft hat. Damit gerät ausgerechnet eines der wichtigsten Werkzeuge zur Bewahrung der Internetgeschichte zunehmend zwischen die Fronten eines globalen Streits um Daten, Urheberrechte und Künstliche Intelligenz.


![Einstieg in CSS: Wir bauen eine moderne Website für einen Rechtsanwalt [Teil 2] 🚀 Einstieg in CSS: Wir bauen eine moderne Website für einen Rechtsanwalt [Teil 2] 🚀](https://www.webnumerus.de/wp-content/uploads/2026/05/Aufbau_CSS-Selektor-300x225.jpg)
![Einstieg in HTML: Wir bauen eine moderne Website für einen Rechtsanwalt [Teil 1] 🚀 Einstieg in HTML: Wir bauen eine moderne Website für einen Rechtsanwalt [Teil 1] 🚀](https://www.webnumerus.de/wp-content/uploads/2026/06/Einstieg_in_HTML-300x169.jpg)
Schreiben Sie einen Kommentar