Internet-Archivierung:Lang lebe die Datei

Lesezeit: 3 min

Das Internet weiß alles. Noch. Aber mit jedem neuen Smartphone und jedem neuen Browser wächst das Risiko, dass viele Dateien nicht mehr lesbar sein können. Forscher suchen deshalb nach dem "digitalen Pergamentpapier", das viele Generationen überdauert.

Von Alexander Stirn

Vinton Cerf, der berühmte Informatiker und einer der Väter des Internet, fürchtet, seine Schöpfung könnte bald an Amnesie leiden. Beim Jahrestreffen des amerikanischen Wissenschaftsverbands AAAS in San Jose forderte Cerf am vergangenen Wochenende, ein "digitales Pergamentpapier" zu entwickeln. Diese neue Technologie soll - ähnlich wie uralte Schriftrollen - viele Jahrtausende überdauern und die notorisch flüchtigen digitalen Informationen langfristig speichern.

"Falls wir kein System aufbauen, das Daten dauerhaft konserviert, können wir zusehen, wie sich unser digitales Gedächtnis nach und nach verflüchtigt", warnt der Informatiker, der in den 1970er Jahren jene Übertragungsprotokolle entwickelt hat, auf denen das Internet noch heute aufbaut. Das war lange bevor Tim Berners-Lee am Forschungszentrum Cern auf Basis dieser Übertragungstechnik das World Wide Web aufbaute.

Selbst Textdateien könnten schon nach einer Gerätegeneration unlesbar werden

Cerfs Appell hat einen ernsten Hintergrund. Die meisten digitalen Inhalte sind heutzutage keine statischen Dateien mehr, keine kopierfähigen Ansammlungen von Buchstaben, die problemlos archiviert werden können. Moderne Webseiten bestehen vielmehr aus kleinen Programmen, die auf dem Computer der einzelnen Nutzer ausgeführt werden und vom jeweils genutzten Betriebssystem sowie der eingesetzten Hardware möglicherweise unterschiedlich interpretiert werden.

Auch Apps und die darin enthaltenen Informationen hängen vom benutzten Smartphone ab - sei es ein Android-, ein Apple- oder ein Microsoft-Gerät. Dateien aus Textverarbeitungen oder Tabellenkalkulationen können sogar von einer Version der zugehörigen Software zur nächsten unlesbar werden. Und die heutigen Simulationen zur Berechnung des Weltklimas laufen nur auf spezialisierten Hochleistungsrechnern. Dabei könnte es für künftige Generationen durchaus interessant sein, die Berechnungen abermals ablaufen zu lassen und zu prüfen, welche Fehler in der Vergangenheit gemacht worden sind.

"Hinzu kommt: Was passiert mit solchen Programmen, wenn eine Firma den Betrieb einstellt? Wer hat das Recht am Programmcode, wer darf ihn weiterentwickeln", fragt Cerf. "Es gibt da so viele Unwägbarkeiten, die unser digitales Gedächtnis beeinträchtigen können." In die analoge Welt übertragen, könnte man sagen: Die Bücher der Digitalwelt (Dateien) werden in Zukunft nicht mehr lesbar sein, ohne genaue Kenntnis der Regale und Bibliotheken, in denen sie verwendet wurden.

Eine mögliche Lösung kommt von Mahadev Satyanarayanan, Professor an der Carnegie Mellon Universität in Pittsburgh. Gemeinsam mit Kollegen hat der Informatiker, der von Cerf freundlich "Satya" genannt wird, das Olive Archive entwickelt. "Das Programm fertigt im Prinzip ein digitales Röntgenbild eines Computersystems an", erklärt der Informatiker.

Der Schnappschuss enthält eine detaillierte Beschreibung der Hardware, auf der die Programme laufen. Er registriert das benutzte Betriebssystem. Er speichert die verwendeten Bibliotheken und Programmsprachen, den Code und alle weiteren wichtigen Informationen. "Letztlich versucht Olive, den Gesamtzustand, der die dynamischen Informationen erzeugt hat, einzufrieren und möglichst präzise zu reproduzieren", sagt Satyanarayanan. Ausgediente Hardware muss somit nicht jahrzehntelang aufgehoben werden, nur weil irgendjemand ein dafür entwickeltes Programm eines Tages noch einmal anwerfen möchte.

Kommt der Tag, an dem auf die dynamischen Webseiten, auf die Apps, Spiele oder Programme, wieder zugegriffen werden muss, wird ein virtueller Rechner aktiv, der auf einem Linuxsystem basiert. Der Pseudo-Computer ahmt per Software in der Zukunft die ehemals verwendete Hardware nach, inklusive des alten Betriebssystems. Auf diesem laufen wiederum die archivierten Programme mit den interessanten Daten. "Im Grunde landet das gesamte zu archivierende Material in einer großen Datei, die dann abgespielt werden kann", sagt Cerf.

Wer soll die Archivierung bezahlen?

Noch ist das Olive Archive eine experimentelle Software, die Website des Projekts gibt 0.5.0 als aktuelle Versionsnummer an. Das Programm läuft aber bereits, versichert Cerf, in der Cloud - einem von überall erreichbaren Zusammenschluss von Servern. Trotzdem bleiben viele Fragen offen: Wer soll die groß angelegte Archivierung des Internets organisieren und bezahlen? Google? Vinton Cerf, seit 2005 Vizepräsident und Chef-Theoretiker des Suchmaschinenkonzerns, schweigt dazu in San Jose. Auch auf die Frage, was archiviert werden soll und kann, gibt es noch keine Antwort.

Cerf würde am liebsten alles Denkbare und Undenkbare in ein digitales Archiv packen, so viel lässt er wissen. Dahinter steht die Erfahrung heraus, dass während der Anfangszeiten des Internet viele digitale Aufzeichnungen verloren gingen, die Historiker heute interessieren würden. Cerf sagt: "Das große Kunststück wird sein, ein Werkzeug zu entwickeln, das all jenes archiviert, von dem (die heute lebenden) Menschen noch gar nicht wissen, dass es erhalten werden sollte."

© SZ vom 18.02.2015 - Rechte am Artikel können Sie hier erwerben.
Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: