Belgisches Staatsarchiv

Hüter unserer kollektiven Erinnerung

FR | NL | DE | EN
Menu

Webarchivierung

Texte petit  Texte normal  Texte grand

Websites sind eines der wichtigsten Medien unserer Zeit. Wie andere Arten von Archivalien auch müssen sie also je nach historischem Wert langfristig aufbewahrt werden.

Muss ich die Websites meiner Organisation aufbewahren und an das Staatsarchiv überführen?

Archivbildnern wird empfohlen, ihre Website regelmäßig zu spiegeln; das Staatsarchiv hilft gerne bei der Wahl einer Methode und eines Zeitplans.

Projekt PROMISE

Die Königliche Bibliothek von Belgien arbeitet an der Schaffung eines nationalen Webarchivs mit einer jährlichen Spiegelung aller .be-Websites, also auch der Websites der belgischen Behörden (Weitere Informationen).

Das Webarchiv befindet sich derzeit noch im Stadium eines Prototyps. Ferner werden aufgrund des Umfangs des Vorhabens nicht alle Einzelheiten der Websites erfasst werden können. Das Staatsarchiv beurteilt daher gegenwärtig, ob eine ergänzende Strategie vonnöten ist, um alle Websites der öffentlichen Hand in hinreichender Qualität und Regelmäßigkeit zu speichern.

In Zukunft wird in den Aussonderungslisten festgelegt sein, welche Websites wie oft gespiegelt und überführt werden müssen.

Welche Bestandteile einer Website müssen aufbewahrt werden?

Eine Website besteht aus einer Sammlung von Texten, Datenbanken, Bildern und anderen audiovisuellen Inhalten, die mittels einer Auszeichnungssprache (engl. „markup language“) wie eine Collage zusammenfügt werden. Ein großer Teil dieser Inhalte wird allerdings bereits in der jeweiligen Klassifizierung beziehungsweise im elektronischen Dokumentenverwaltungssystem aufbewahrt, wo sie auch hingehören und besser verwaltet werden können (insbesondere Datenbanken, die vorzugsweise separat aufbewahrt werden). Folgende Frage gilt es also zu beantworten:

Welche Informationen (Objekte) werden auf der Website bezüglich Inhalt, Struktur oder Funktionsweise hinzugefügt, die nicht bereits in Dateien gesondert aufbewahrt werden?

Hinzugefügte Information kann Folgendes sein:

  • Texte direkt im HTML-Format ohne Ausfertigung beispielsweise als PDF-Datei
  • Abbildungen aus externen Quellen
  • Effekte oder Animationen mit Mehrwert (die z.B. das Verhältnis zwischen Objekten und Informationen veranschaulichen)
  • Eine Suchmaschine, die notwendig ist, um zu verstehen, wie die Website benutzt wird/wurde.
  • Benutzergenerierte Inhalte wie Beiträge in einem Forum, „Likes“, Umfragen etc.
  • Informationen zu Benutzerkonten

Eine Archivierungsstrategie muss nicht kompliziert sein, insofern die wichtigsten zusätzlichen Informationen gesichert werden (und dabei so wenige Informationen wie möglich kopiert, die bereits andernorts aufbewahrt werden). Eine Bildschirmkopie (Screenshot) kann hierfür ausreichen. Bei der Bewertung, welche Teile der Website einen zu bewahrenden historischen Wert haben, und welche Herangehensweise die beste ist, steht das Staatsarchiv gerne beratend zur Seite.

Mit welchen Methoden können Websites archiviert werden?

Je nachdem, welche Elemente aufbewahrt werden sollen, kann eine oder mehrere der folgenden Methoden angewendet werden:

  1. Aufbewahrung mittels Bildschirmkopie (Screenshot)

Je nach Bedarf kann es sich um eine Bildschirmkopie oder eine Videoaufnahme handeln. Für beide Methoden gibt es benutzerfreundliche Desktop-Tools und Browser-Plugins.

Mit ihnen werden entweder Bild- oder Videodateien erstellt. Vorzugsweise ein langlebiges Dateiformat wählen.

  • Geeignet für: Websites, von denen vor allem die Aufmachung bewahrt werden soll, da der Inhalt bereits in separaten Dateien aufbewahrt wird.
  • Nicht geeignet für: Websites mit einzigartigen Inhalten, die nicht gesondert aufbewahrt werden, deren Qualität erhalten bleiben soll und/oder die durchsucht, heruntergeladen, abgespielt etc. können werden sollen.
  1. Aufbewahrung durch Extrahieren („clientseitiges Scraping“)

Hierbei kommt ein Browser-Plugin zum Einsatz, z.B. ArchiveWeb.page, um die Website ähnlich wie bei einer Videoaufnahme zu erfassen, mit dem Unterschied, dass die Seiten selbst ausgelesen und gespeichert werden anstelle einer Aufnahme. So können später Texte durchsucht, Bilder kopiert werden etc. – als wäre die Website online. Dies ist eine recht einfache Methode, um viele Eigenschaften einer Website zu erfassen. Allerdings funktionieren ausschließlich die Links, die beim Auslesen angeklickt wurden, was die Methode bei großen Websites arbeitsintensiv macht.

Das Ergebnis dieser Methode ist eine Archivdatei im Format .warc (oder .warcz), die auf verschiedenen Websites oder mit Desktop-Tools gelesen werden kann.

  • Geeignet für: Websites, die so gespeichert werden sollen, wie sie von den Benutzern verwendet werden, mit Anmeldeseite und/oder dynamischen Elementen, Benutzereingaben erfordern und an denen Webcrawler nicht vorbei gelangen.
  • Nicht geeignet für: Websites mit zahlreichen Ebenen und Verknüpfungen.
  1. Aufbewahrung mittels Webcrawler

Webcrawler sind Computerprogramme, die eine Momentaufnahme einer Website erstellen. Sie arbeiten schnell und automatisiert, sind aber meist nicht gut geeignet für das Erfassen von dynamischen Elementen, die Benutzereingaben erfordern. Gängige Webcrawler sind z.B. Heritrix, Browsertrix und HTTrack (weniger fortschrittlich aber benutzerfreundlicher aufgrund der graphischen Benutzeroberfläche). Alle drei sind kostenlos verfügbar.

Diese Webcrawler speichern entweder Archivdateien im Format .warc (oder .arc) wie bei Heritrix, oder eine Sammlung von Dateien, die die Quelldateien und ihren jeweiligen Zusammenhang widerspiegeln wie bei HTTrack.

  • Geeignet für: Speichern von einer oder mehreren Websites ohne großen manuellen Aufwand.
  • Nicht geeignet für: Websites mit viel dynamischem Inhalt oder mit vielen Bereichen, die nur über eine Anmeldeseite erreichbar sind.
  1. Aufbewahrung des Quellcodes

Bei dieser Methode wird die Website nicht vom Internet gespiegelt, sondern alle Quelldateien werden gespeichert, wie auch für andere Arten von digitalen Archiven. Diese Methode kann also nur vom Urheber der Website angewendet werden. Sie ist nicht dafür geeignet, Benutzereingaben zu speichern und die Website kann nur eingesehen werden, solange die Programmiersprache und die Quelldateien lesbar bleiben.

  • Geeignet für: Komplexe Websites mit vielen einzigartigen Inhalten, die von der Organisation nicht andernorts aufbewahrt werden.
  • Nicht geeignet für: Websites mit vielen externen Verknüpfungen (beispielsweise zu externen Datenbanken) oder vielen benutzergenerierten Inhalten.

Das Staatsarchiv hilft gerne bei der Auswahl der bestgeeigneten Methode.

Wie oft muss eine Website erfasst werden?

Websites der öffentlichen Hand von kulturerblichem Wert sollten mindestens einmal pro Jahr gespiegelt werden sowie vor und nach tiefgreifenden Änderungen.

Wer ist verantwortlich?

Die Besprechung der geeigneten Archivierungsmethode kann zwischen Informationsmanager(n), Website-Administratoren und dem Staatsarchiv geführt werden.

Fragen oder Anmerkungen?

Kontaktieren Sie uns.

www.belspo.be www.belgium.be e-Procurement