TranskriberRatgeber › Archive und Institutionen

Transkription für Archive und Institutionen

Wie Stadtarchive, Kirchenarchive, Museen und Bibliotheken KI-gestützte Handschriftenerkennung skaliert, datenschutzkonform und zu kalkulierbaren Kosten einsetzen können.

Institutionsangebot anfragen

In den Magazinen der deutschen Stadtarchive lagern nach Schätzungen des Verbands deutscher Archivarinnen und Archivare mehrere Milliarden Seiten handgeschriebener Dokumente. Protokolle aus dem 17. Jahrhundert, Steuerlisten des 18. Jahrhunderts, Bürgeranträge des 19. Jahrhunderts, Verwaltungsvorgänge des frühen 20. Jahrhunderts: Das meiste davon ist aufbewahrt, geordnet, klimatisiert und vollständig unzugänglich für die Öffentlichkeit, weil es niemand lesen kann. Nicht weil der Wille fehlte, sondern weil die Kapazitäten für eine manuelle Erschließung in keinem vernünftigen Verhältnis zum Umfang der Bestände stehen.

KI-gestützte Handschriftenerkennung verändert dieses Verhältnis grundlegend. Was früher die Lebensarbeitszeit einer Historikerin oder eines Historikers in Anspruch genommen hätte, lässt sich heute in Stunden automatisch verarbeiten. Das ist keine Übertreibung, sondern eine nüchterne Einschätzung dessen, was moderne HTR-Systeme (Handwritten Text Recognition) leisten können, wenn sie auf historische Schrifttypen trainiert wurden und mit gut digitalisierten Vorlagen arbeiten.

Der Stand der Digitalisierung in deutschen Archiven

Deutschland hat in den vergangenen zwei Jahrzehnten erhebliche Fortschritte bei der Digitalisierung historischer Bestände gemacht. Das Archivportal-D, das zentrale Zugangsportal zu den Beständen der deutschen Staats- und Kommunalarchive, verzeichnet inzwischen mehrere Millionen digitalisierter Archivalien. Das klingt nach viel. Es ist gemessen am Gesamtbestand wenig.

Das grundlegende Problem der deutschen Archivlandschaft ist nicht die Digitalisierung im Sinne des Scannens, sondern die intellektuelle Erschließung der digitalisierten Bestände. Ein eingescanntes Dokument, das nicht transkribiert und nicht indexiert ist, bleibt für die überwiegende Mehrheit der Nutzer unzugänglich. Es existiert als Bild, aber nicht als Text. Es kann nicht durchsucht, nicht zitiert und nicht in größere Zusammenhänge eingebettet werden. Für die Forschung ist ein solches Digitalisat kaum wertvoller als ein verschlossener Aktenschrank.

„Digitalisierung ohne Transkription ist Archivierung für Spezialisten. Transkription macht aus Spezialwissen öffentliches Wissen. Das ist der Unterschied zwischen einer Bibliothek und einem Museum."

Was KI für Institutionen heute leisten kann

Die Leistungsfähigkeit moderner HTR-Systeme hängt von mehreren Faktoren ab: der Qualität der Digitalisate, der Homogenität des Schrifttyps und dem Umfang des Trainingsmaterials. Für die häufigsten deutschen historischen Schrifttypen sind bereits gut trainierte Modelle verfügbar.

Bei Kurrentschrift aus dem 19. Jahrhundert erreichen aktuelle Systeme bei sauber digitalisierten Vorlagen Erkennungsraten von 90 bis 95 Prozent auf Zeichenebene (Character Error Rate unter 5 Prozent). Das bedeutet, dass ein 500-Wörter-Dokument im Schnitt 25 fehlerhafte Zeichen enthält, was einer lesbaren und korrekturarmen Transkription entspricht. Bei der Lateinschrift des 20. Jahrhunderts sind die Erkennungsraten noch höher. Bei handgeschriebener Schrift aus dem 17. und frühen 18. Jahrhundert, also bei frühneuzeitlicher Kanzleischrift, sind die Ergebnisse heterogener und erfordern mehr manuelle Nacharbeit.

„Eine Fehlerrate von fünf Prozent klingt nach viel. Sie ist es nicht: Ein erfahrener menschlicher Transkriptor macht bei anspruchsvollen Handschriften ähnliche Fehlerquoten, braucht aber das Hundertfache der Zeit." Sinngemäß nach: Andreas Fischer et al.: Historical Document Analysis, Pattern Recognition, 2021

Anwendungsszenarien: Wer profitiert am meisten

Stadtarchive und Kommunalarchive Massendurchsuchbarkeit von Verwaltungsprotokollen, Bürgeranträgen und Standesregistern. Erschließung für Online-Portale ohne manuellen Transkriptionsaufwand.
Kirchenarchive und Bistümer Transkription von Kirchenbüchern, Pfarrkorrespondenzen und kirchlichen Verwaltungsakten. Ergänzung bestehender Digitalisierungsprojekte wie Matricula.
Museen und Gedenkstätten Erschließung von Nachlässen, Briefsammlungen und handschriftlichem Begleitmaterial zu Sammlungsobjekten. Vorbereitung für Online-Ausstellungen und Kataloge.
Universitätsbibliotheken Transkription handschriftlicher Manuskripte, Gelehrtenkorrespondenzen und Nachlässe für die Forschung. Integration in bestehende Repositorien und Kataloge.
Landesarchive und Staatsarchive Pilotprojekte zur maschinellen Erschließung großer Aktenbestände. Vorbereitung von Findbüchern und Registern auf Basis automatischer Texterkennung.
Genealogische Vereine Massentranskription von Kirchenbüchern und Ortssippenbüchern. Erweiterung zugänglicher Datenbestände für Mitglieder und die Öffentlichkeit.

Datenschutz und Datensicherheit: Was Institutionen wissen müssen

Für öffentliche Institutionen ist die Frage der Datensicherheit bei der Nutzung externer KI-Dienste keine Nebensächlichkeit, sondern eine Kernvoraussetzung. Die Datenschutz-Grundverordnung (DSGVO) gilt auch für historische Archivdaten, sobald diese personenbezogene Informationen enthalten, was bei Standesamtsurkunden, Kirchenbüchern und Verwaltungsakten fast immer der Fall ist.

Transkriber verarbeitet alle Daten ausschließlich auf Servern in der Europäischen Union. Der Hauptstandort ist Hetzner Online in Nürnberg, ein deutscher Anbieter mit BSI-konformen Rechenzentren. Es gibt keine Weitergabe von Archivdaten an Dritte zu Trainingszwecken: Das hochgeladene Material wird ausschließlich für die jeweilige Transkription genutzt und danach nicht dauerhaft gespeichert, sofern der Nutzer dies nicht ausdrücklich wünscht. Für institutionelle Kunden bieten wir einen Auftragsverarbeitungsvertrag nach Art. 28 DSGVO an, der alle gesetzlichen Anforderungen erfüllt.

„Datenschutz ist kein Hindernis für die digitale Erschließung von Archivbeständen. Er ist eine Rahmenbedingung, die von Anfang an in den Prozess eingebaut werden muss."

Für besonders sensible Bestände, etwa Akten aus der NS-Zeit oder Unterlagen zu noch lebenden Personen, bieten wir auf Anfrage eine on-premises-Lösung an: Die KI-Modelle werden dabei auf der eigenen Infrastruktur der Institution betrieben, sodass keinerlei Daten das Haus verlassen. Diese Option setzt eine entsprechende technische Infrastruktur voraus und wird gesondert kalkuliert.

Preismodelle für institutionelle Kunden

Für Institutionen, die größere Bestände erschließen möchten, bietet Transkriber gestaffelte Mengenpreise an, die mit dem Volumen deutlich sinken. Alle Preise verstehen sich netto zuzüglich gesetzlicher Mehrwertsteuer und beziehen sich auf eine Seite im Format DIN A4 bei mindestens 200 dpi Scan-Qualität.

Volumen (Seiten/Jahr) Preis pro Seite Besonderheiten
Bis 500 Seiten 0,30 € Einzelbuchung, keine Laufzeit
501 bis 2.000 Seiten 0,25 € Prepaid-Paket mit 12 Monaten Laufzeit
2.001 bis 10.000 Seiten 0,20 € Jahresvertrag, monatliche Abrechnung
10.001 bis 50.000 Seiten 0,15 € Jahresvertrag, inkl. AVV nach DSGVO
Über 50.000 Seiten Auf Anfrage Individualvertrag, API-Zugang, SLA

Alle institutionellen Pakete ab 2.000 Seiten beinhalten einen dedizierten Ansprechpartner, eine Einführungsschulung für das Archivpersonal und eine priorisierte Verarbeitung mit garantierten Lieferzeiten. Für öffentliche Einrichtungen bieten wir auf Anfrage Vergabeunterlagen für beschränkte Ausschreibungen an.

API-Zugang: Integration in bestehende Archivlösungen

Institutionen, die Transkriber in bestehende Archivsoftware integrieren möchten, können über unsere REST-API auf die Transkriptionsfunktionen zugreifen. Die API akzeptiert Bilddateien in den Formaten TIFF, JPEG und PDF und gibt die transkribierten Texte in den Formaten JSON, XML (TEI P5-konform) und Plaintext zurück. TEI-konforme Ausgabe ist besonders für Bibliotheken und Forschungseinrichtungen relevant, die ihre Bestände in geisteswissenschaftliche Dateninfrastrukturen integrieren möchten.

Die Standardschnittstelle ist kompatibel mit den meisten gängigen Archivsystemen, darunter Atom, ArchivesSpace und scopeArchiv. Für weitere Systeme und individuelle Anforderungen bieten wir auf Anfrage Integrationsberatung an. Alle API-Anfragen werden per HTTPS verschlüsselt und über Token-Authentifizierung abgesichert.

„Die beste Transkriptionslösung ist die, die sich so nahtlos in bestehende Arbeitsabläufe einfügt, dass das Archivpersonal kaum merkt, dass sie da ist."

Qualitätssicherung: Mensch und Maschine im Tandem

Ein verbreitetes Missverständnis in der Diskussion über KI-gestützte Transkription ist die Annahme, dass es sich um ein Entweder-oder handelt: entweder vollautomatisch oder manuell. In der Praxis ist das optimale Modell ein hybrides: Die KI übernimmt den ersten Durchgang und erzeugt eine Rohtranskription, die das Archivpersonal dann prüft, korrigiert und ergänzt. Dieser Workflow ist für die meisten Institutionen erheblich effizienter als ein rein manueller Prozess, weil die Korrektur einer maschinellen Transkription deutlich schneller geht als die manuelle Ersterstellung.

Für eine fundierte Qualitätssicherung empfehlen wir ein dreistufiges Modell: Im ersten Schritt verarbeitet die KI das gesamte Digitalisat und liefert die Rohtranskription mit Konfidenzwerten für jeden Textbereich. Im zweiten Schritt prüft eine fachkundige Person die Bereiche mit niedrigem Konfidenzwert prioritär. Im dritten Schritt wird das Ergebnis nach definierten Qualitätskriterien stichprobenartig überprüft, wobei der Prüfumfang je nach Bestandsart und Zweck der Erschließung variiert. Die Leitlinien des Landesarchivs Baden-Württemberg zur maschinellen Texterkennung bieten eine gute Orientierung für die Definition solcher Qualitätskriterien.

Fördermöglichkeiten für die digitale Erschließung

Für öffentliche Archive und gemeinnützige Institutionen gibt es in Deutschland mehrere Förderprogramme, die die digitale Erschließung von Archivbeständen unterstützen. Das Programm zur Erschließung und Digitalisierung der Deutschen Forschungsgemeinschaft (DFG) fördert Projekte, die handschriftliche Bestände für die Forschung zugänglich machen. Voraussetzung ist in der Regel ein wissenschaftlicher Nutzungskontext und die Bereitschaft, die Ergebnisse Open Access zur Verfügung zu stellen.

Auf Landesebene bieten die Kultusministerien und Kulturförderinstitutionen der Bundesländer zusätzliche Programme an, die regionale Besonderheiten berücksichtigen. Wir beraten institutionelle Kunden auf Anfrage bei der Identifizierung geeigneter Förderprogramme und der Erstellung von Projektanträgen. Diese Beratung ist für Institutionen, die ein Jahresvolumen von mehr als 10.000 Seiten anstreben, kostenlos.

Institutionsangebot anfragen

Teilen Sie uns Ihren Bedarf mit: Bestandsgröße, Schrifttypen, zeitlicher Rahmen und besondere Anforderungen an Datenschutz und Integration. Wir erstellen Ihnen innerhalb von 48 Stunden ein maßgeschneidertes Angebot.

Angebot anfragen Kostenlos testen