17. Januar 2014

Fraktur lesen

Mit lesen meine ich nicht mit dem Auge, sondern mit dem Computer;
mit Fraktur meine ich generell gebrochene Schriften im Gegensatz zu Antiqua.
Katholische Messbücher, Schott 1953, Gotteslob 1975
Zur Klarstellung. Die ganz linke Spalte im Bild (klickbar), die lateinische, und das Buch darunter sind in Antiqua gesetzt, unserer heutigen normalen Druck­schrift. Die rechte Spalte des alten Messbuchs (deutsch) und das noch aktuelle »Gotteslob« sind in Fraktur gesetzt. Kein Wun­der, dass man Fraktur eine alte deutsche Schrift nennt, was sie zwar war, aber längst nicht aus­schließ­lich. Fraktur wurde in vielen nordischen Ländern verwendet, auch in England, weil sie so schön ist, dort dann aber schon eher abgeschafft als in Deutschland, wo sie ein nationalsozialistischer Erlass 1941 verbot. Genug »frakturiert«. (Mehr zum abgebildeten Thema »pro multis« hier.)
   Will man Fraktur heutigen Lesern und vor allem Computern lesbar machen, und damit durchsuchbar und auffindbar, so muss man sie einscannen (300 dpi sind recht) und optisch lesen. Der Vorgang heißt OCR, optical character recognition, und wird für Antiqua (diese Schriftart hier) häufig angeboten – eben weil die heute allein gängige Antiqua für Mensch und Maschine so einfach zu lesen ist. Fraktur aber macht Probleme. Ein schönes Beispiel finden Sie in der NZZ-Suche auf http://blogabissl.blogspot.com/2017/09/online-suche-nach-nzz-artikeln.html.

Online mit “FineReader” von “Abbyy”

Fraktur-OCR macht man am besten für wenig Geld online, sprich »in der Wolke«. Dort findet man den Fachmann für Frakturlesen und OCR, “Abbyy” aus Moskau, mit seinem “FineReader”. Aktuell (Mai 2016) kosten z.B. 200 Seiten fünf Euro, zu zahlen im voraus mit Paypal oder Kreditkarte. Link https://finereaderonline.com/en-us/Store#store-period-month, dort …
 … eventuell den grünen Schiebeschalter anklicken und nach links schieben, um die preiswerten Monatsabonnements zu sehen! Probieren ist gratis: Eine »Trial-Seriennummer« für 50 Seiten normale OCR und 50 Seiten Fraktur anfordern.
   Die Fraktur-Seiten müssen als Bilddateien oder pdf am eigenen Rechner vorliegen. Dann geht man online und auf
   https://finereaderonline.com/en-us/Tasks/Create
Dort erklärt sich alles fast von selbst. Oben gibt man die Quelldatei an. In der Mitte unter Punkt 2 die Eingabesprache: German. Dann muss unbedingt auf “black-letter typeface” „Enable Fraktur“ umgestellt werden (bei “Click here”), so wie im Bild. Sonst kommt Mist heraus.

Hier muss man neben dem Wort document auf „Enable Fraktur OCR [?]“ klicken:
 – und sieht dann diese, so für Fraktur einzig richtige Einstellung:

 Unten wählt man das Ausgabeformat. Klappt prima, 20 bis 50 Sekunden je Seite. Die Russen merken sich Ihre Voreisstellungen.
   Ein anderer Online-Service, der mit Tesseract arbeitet, “OCRextrAct”, ist kostenlos: http://www.ocr-extract.com/ (noch nicht probiert, mehr unten und im PS).
   Von Abbyy gibt’s auch eine Off-line-Suite zum Installieren am PC oder verteilt im eigenen Netz, 460 MByte, ein Hammer, die sich nur empfiehlt, wenn man massenhaft und vielleicht sogar zu mehreren Fraktur einlesen möchte. Ich bin damit auf Anhieb nicht zurechtgekommen. Der Online-Dienst ist da viel besser.

Offline mit “Tesseract”

“Tesseract” hat eine lange Geschichte; jedenfalls ist es ganz kostenlos.
   Hier, wie ich’s auf meinem Rechner zum Laufen bekommen habe.
   Ich verwende dazu “FreeOCR” von http://www.paperfile.net/. “Download” bringt einen auf http://www.paperfile.net/download.html bezw. auf http://www.paperfile.net/download2.html.
   Danach installiert man mit der heruntergeladenen Datei freeocr.exe (405 kB) das Programm “FreeOCR”. Es holt dabei weitere Software aus dem Netz und installiert sich normalerweise im Ordner C:\FreeOCR (nicht unter C:\Programme). Aufpassen: Beim Installieren wird einem allerlei zusätzliches Zeug angeboten, nichts Böses, aber hier für uns unnötig.
   Patch. Bevor man Fraktur erfolgreich scannen kann, muss noch die kleine Datei deu-frak.traineddata (z. Zt. 808 kByte) in den Ordner C:\FreeOCR\tessdata gespeichert werden, zu den anderen ähnlichen Dateien. Die Datei ist für deutsche Fraktur zuständig und hier zu finden: http://code.google.com/p/tesseract-ocr/downloads/detail?name=deu-frak.traineddata.gz&can=2&q=language+data&sort=summary, gezippt. – (Man sieht, Google ist schon dran, ein gutes Zeichen.)
   Die Datei “deu-frak.train…” benenne man vor dem Punkt um, etwa in “frk-train…”. Denn später in der Quellsprachauswahl (Klappmenü) von FreeOCR werden nur die ersten drei Zeichen gezeigt, also müssen bereits die unterscheidend sein.
   Jetzt ist man bereit zum Aufruf von “FreeOCR”. Entgegen alten Gerüchten ist das kein Kommandozeilenprogramm wie wohl Tesseract früher, sondern schön mausgeführt.
Echter Kamera-»Screenshot«
Wenn ich das (mit Gadwin Printscreen) direkt vom Bildschirm schaffe, baue ich’s noch ein.
“Open” und “Scan” erklären sich von selbst. Wichtig ist, wie gesagt, die “OCR Language: frk”. Die Testseite stammt von hier, das bereinigte und überarbeitete Ergebnis finden Sie hier.
   Die Bilder mit der Ausgangsschrift sollten schön gerade stehen, damit sich das Leseprogramm nicht mit den Zeilen vertut, sonst gibt es erstaunlich schlechte Ergebnisse, einfach keine. JPGs sollten möglichst mit bester Qualität abgespeichert worden sein. Schwarz-weiß und guter Kontrast sind besser als bunte Vorlagen. 
   Nach dem digitalen Lesevorgang kopiert man sich das Ergebnis hinein in eine Word-Datei – im Beispiel hier ist alles schon blau markiert (Strg+a Strg+c) –, oder lässt sich gleich eine Word-Datei ausgeben.
   Danach beginnt die eigentliche, schöne Arbeit: Das Versäubern von Fraktur-Text in Antiqua. Darüber ein andermal, Sie können sich ja schon einmal ein Beispiel, wei ich’s meine, ansehen: http://siebenfahr.com/Bauernjahr.pdf. – Inwischen mehr dazu gleich hier im nächsten Blog.

Kommentare und Danksagungen an mich: Fritz@Joern.De

Direkter Link zu diesem Eintrag: http://blogabissl.blogspot.com/2014/01/fraktur-lesen.html

PS. Hier eine schöne (englische) Beschreibung, wie man PDF-Dateien mit Fraktur im Bild mit dem maschinenlesbaren und damit durchsuchbaren Inhalt hinterlegt.

Zugabe: Unbezahlte Werbung, sozusagen Productplacement, für Treventus.
Ein Buchscanner bei der Arbeit

 

1 Kommentar:

Philipp Wagner hat gesagt…

Hi, danke für diesen sehr interessanten Post! Wenn man Tesseract nicht selbst installieren will, kann man auch eines der vielen Online OCR Dienste verwenden. Die funktionieren in der Regel auch schon ziemlich gut und flott :-)