Archivierung

Das Archiv ist gescannt. Und jetzt?

Digitalisieren ist nicht Scannen. Es ist Entscheiden auf Basis gescannter Informationen und korrekter Metadaten.

Im Keller stehen hundert Meter Archivschränke. Niemand weiß genau, was darin liegt. Kartons mit Aufklebern wie „HR 2003-2008“ und „Projekte Nord - div.“ Die jährlichen Lagerkosten sind nicht trivial. Der Direktor fragt: „Kann das nicht einfach weg?“ Die Antwort ist komplexer, als er gehofft hat.

Das niederländische Archivgesetz 1995 schreibt vor, dass öffentliche Stellen — und Organisationen mit öffentlichen Aufgaben — Informationen nach festgelegten Aufbewahrungsfristen aufbewahren müssen, die in einer Bewertungsliste (selectielijst) festgehalten sind. Erst nach Ablauf der Frist darf und muss die Information vernichtet werden. Dauerhaft aufzubewahrendes Material geht an einen Archivdienst. Das neue Archivgesetz liegt derzeit dem Senat zur Beratung vor, mit beabsichtigtem Inkrafttreten 2027; es verkürzt unter anderem die Übergabefrist von 20 auf 10 Jahre.

Entscheidend in beiden Fassungen: Vernichtung ist nur auf Grundlage einer strukturierten Erfassung mit Metadaten zulässig. Unstrukturierte Informationen dürfen formal nicht vernichtet werden, weil sich nicht nachweisen lässt, was vernichtet wird. Übertragen auf hundert Meter Kartons heißt das: Sie können nicht einfach einen Container bestellen. Sie müssen pro Karton, pro Dossier, teils pro Dokument bestimmen, was es ist, wann es abgeschlossen wurde, welche Kategorie der Bewertungsliste greift, und ob die Frist abgelaufen ist. Und falls personenbezogene Daten enthalten sind, kommt die DSGVO hinzu — sie sagt, dass personenbezogene Daten nicht länger als nötig gespeichert werden dürfen. Das Gegenteil ist genauso unangenehm: Informationen, die hätten vernichtet werden müssen, aber noch da sind, müssen bei einer Woo-Anfrage einfach offengelegt werden.

Die klassische Lösung ist eine Scanstraße: Kartons aus dem Keller, industrielles Scannen, PDFs zurück auf einen Server. Fertig, denken alle. Tatsächlich haben Sie nun hundert Meter Papier durch Terabytes unstrukturierter PDFs ersetzt — weder auffindbar noch rechtssicher zu vernichten. Das Problem ist verlagert, nicht gelöst. Die eigentliche Herausforderung ist der zweite Schritt: pro Dokument bestimmen, was es ist, welche Aufbewahrungsfrist gilt, und ob es weg darf. Bei hundert Metern Archiv, schnell hunderttausende Dokumente, ist das von Hand eine Frage von Jahren Arbeit.

Wir betrachten ein physisches Archiv als Pipeline aus drei Schritten in einem Durchlauf. Zuerst das Scannen mit automatischer Drehkorrektur und Qualitätskontrolle, und OCR, die auch bei alten Schreibmaschinenbriefen, Durchschlägen und handschriftlichen Notizen funktioniert. Dann die intelligente Ebene: KI-Klassifikation erkennt Dokumenttypen (Vertrag, Brief, Notiz, Personalakte, Bauzeichnung, Finanzbericht), verknüpft sie mit den relevanten Kategorien Ihrer Bewertungsliste, extrahiert die relevanten Metadaten und berechnet daraus die Aufbewahrungsfrist. Für jedes Dokument folgt eine Empfehlung: aufbewahren, übergeben oder vernichten, mit Begründung. Der dritte Schritt ist menschliche Validierung dort, wo es zählt. Bei 95% Genauigkeit sind bei 500.000 Dokumenten noch immer 25.000 potenzielle Fehler enthalten; Zweifelsfälle gehen an eine Archivarin, die abschließend entscheidet. 90-95% laufen automatisiert, die sensiblen 5% erhalten genau die zusätzliche Aufmerksamkeit, die sie benötigen.

Am Ende sind drei Dinge gleichzeitig erreicht. Das physische Archiv ist weg — nur das, was wirklich physisch bleiben muss, bleibt. Was digitalisiert wurde, ist nicht nur gescannt, sondern strukturiert: durchsuchbar, mit Metadaten versehen, mit der Bewertungsliste verknüpft. Und es gibt eine Vernichtungserklärung, wie das Archivgesetz sie verlangt, mit einer vollständigen Aufstellung dessen, was vernichtet wurde, auf welcher Kategorie, und wann. Der Direktor bekommt seinen Keller zurück. Die Datenschutzbeauftragte und die Archivarin bekommen einen nachweislich rechtmäßigen Vernichtungsprozess. Und die nächste Woo-Frage lässt sich aus einem Archiv beantworten, das sich selbst kennt — statt aus hundert Metern „hoffentlich wird das heute Nachmittag nicht relevant“.

Erkennen Sie diese Situation?