Als Beispiele gerade erst von mir bearbeiteter Texte darf ich anführen: für Antiqua einen Zeitungsartikel mit der Bearbeitung auf Seite 2 und folgenden, und für Fraktur das schöne Sarner Bauernjahr.
• Arbeitsumfeld. Zunächst forme man sich in seinem bevorzugten Textverarbeitungsprogramm, etwa Word, den Rohtext aus der OCR so um, dass man ihn optisch gut erkennen kann. Normale Zeilenabstände, normale Schrift (Ich arbeite mit gängiger Times New Roman), normale Buchstabengröße (meist 12 Punkt), genug Rand, das gibt kurze, leicht überschaubare Zeilen. Ich habe mir für dieses Umformen ein Word-Macro gemacht, dann geht das auf einen Schlag.
Überhaupt empfehle ich, typische Korrekturen immer nebenher mitzunotieren. Dann kann man sich später ein Macro machen mit allen üblichen maschinell möglichen Änderungen.
Mit Blick auf das Original wird dann der Text Wort für Wort gelesen, spannend oder nicht, und Fehler werden korrigiert. (Der Korrekturmodus ist nicht angesagt, wozu auch?)
• Zeilenwechsel und Absätze. Gescannte Texte haben meist am Ende jeder Zeile einen »Absatzwechsel« (»Absatzbuchstabe«), zu sehen als ¶ bei eingeschalteter Anzeige der Formatierungszeichen. Die bekommt man bei Word, indem man in der üblichen Symbolleiste ¶ anklickt. (Word meint außerdem: »Sie können zum Ausblenden von Formatierungszeichen auch im Menü Extras auf Optionen und anschließend auf die Registerkarte Ansicht klicken. Aktivieren oder deaktivieren Sie die Kontrollkästchen unter Formatierungszeichen.«)
Ich empfehle überhaupt, das Versäubern mit derart eingeschalteter Sonderzeichenanzeige zu machen.
Die störenden Absatzmarken bekommt man mit Suchen und Ersetzen weg, in drei Schritten.
Erstens ändert man alle echten Absätze, zu sehen als ¶¶ in die Buchstabenfolge QWERTZ oder sonst eine Zeichenfolge, die im Text gewiss nicht vorkommt. (Das Absatzzeichen bekommt man in Words Suchen und Ersetzen über (unten) Sonstiges als Absatzmarke oder ^p.)
Zweitens ändert man alle verbliebenen einzelnen Absatzmarken ¶ in garnichts, löscht sie damit also heraus. Jetzt ist der Text ein durchgehend fließender Block. Doch keine Angst:
Als Drittes ersetzt man am Schluss alle QUERTZ zurück in "¶ " – Absatz und drei Leerstellen! Noch besser sind drei geschützte Leerzeichen, ^s. In Words Suchen und Ersetzen sieht das Einzusetzende dann so aus: ^p^s^s^s, wobei wohl p für paragraph, Absatz, und s für space, Leerstelle steht. Das hat den Vorteil, dass Absätze gleich mit einem Einzug beginnen, was fürs Lesen sehr wichtig ist.
Schriftsatzregel: Absätze durch Leerzeile (Durchschuss) oder Einzug. Ganz am Anfang also keinen Einzug. Tabs und dergleichen besondere Einzüge meide ich, weil sie bei weiterer Bearbeitung leicht verschwinden.
• Umlaute. Besonders die gescannte Buchstabenfolge ii ist verdächtig, auch il und dergleichen. Das sind oft kleine ü. Die Tremapunkte (Bin ich nicht ein Angeber!) gehen beim Scannen gern verloren.
Das lange (kleine) S |
Jedenfalls müssen das lange ſ und die Ligaturen raus, schon damit der Text maschinell durchsuchbar bleibt. Beim OCRen wird ſ leicht zu f, Oſtfriesland zu Oftfriesland – Sie sehen, wie unlesbar das im Gegensatz zu Ostfriesland ist.
Weitere Schriftkürzel erwähnt Andreas Hauser in seiner lesenswerten (englischen) Magisterarbeit zu unserem Thema: OCR Postcorrection of Historical Texts, in Tabelle 2.1
Schön die Geschichte mit den Tironischen Noten. Zu Ligaturen in HTML hier.
Das c kommt im Deutschen nur in Verbindung mit h als ch vor, sonst sind’s höchstens Fremdwörter. Vagadundierende cs kann man suchen und dann oft zu o ändern, oder das h dahinter wurde falsch gelesen. Zitat: Da wir, gleich den Griechen und Slaven, die tenuis des gutturallauts mit K ausdrücken, so ist dafür das aus dem lateinischen Alphabet entnommene C ganz überflüssig, fehlt darum auch der gothischen und altnordischen schrift, die Slaven verwenden es für S, die Polen und Böhmen für Z. (…) unentbehrlich aber bleibt, solange wir für die kehlaspirata kein einfaches Zeichen, wie die Gothen das gr. X, annehmen, C in CH. (aus dem Grimmschen Wörterbuch, übernommen aus der Wikipedia)
Statt AH steht da aber FH. |
• Großbuchstaben. Die waren früher oft besonders schmuck – und damit unlesbar –, oder gar als Initiale gesetzt. Das kann man zwar mit Word nachbilden, Format, Initial…, besser ist, man lässt es sein. Der neue Text soll nicht schön, er soll normal zu lesen sein. Wie man Initiale (engl. auch dropcap) in HTML setzt, steht z. B. hier.
Berühmt ist der Fall der falschen Frakturgroßbuchstaben (in vergoldetem Plastik) auf den falschen Hitlermemoiren, FH statt AH, noch dazu gesetzt in pompöser “Engravers’ Old English” vom Amerikaner Morris Fuller Benton 1901.
• Trennungen. Als Trennzeichen am Zeilenende stehen oft =, jedenfalls in Fraktur. Die OCR-Leser verwechseln das dann mit Bindestrichen und Leerzeichen. Vielleicht empfiehlt es sich da, von vorne herein "- " (also Bindestrich+leer) herauszuwerfen. Schaden kann das wenig.
Ein Sonderfall ist die alte Trennung von ck in k-k, etwa recken in rek-ken. Da muss man das ungetrennte Wort einsetzen.
Im Ergebnis sollten jedenfalls keine Trennungen vorkommen, und Binde-Striche sollten echte solche sein.
• Orthographie. Ich schlage vor, dezent auf die neue deutsche Rechtschreibung umzusetzen. Der Leser soll nicht unnötig an Ungewohntem hängenbleiben, und Suchmaschinen sollen Gesuchtes mit der üblichen Schreibweise finden können. Die neue Worttrennung setze ich nicht ein, wohlfühen bleibt bei mir ein Wort – in der neuen Rechtschreibung übrigens auch, keine Angst. Wenn alte Schreibweisen allerdings typisch sind, sagen wir Ribl statt Riebl oder Riebel, so lasse ich das. So etwas erkläre ich sowieso in einer Fußnote und erwähne dort moderne, unterschiedliche Schreibweisen. Hauptsächlich das daß mache ich zu dass, das reicht oft schon, um den Text modern lesbar zu machen. Und das geht mit Suchen und Ersetzen.
Übrigens: Das ß ist durchaus noch da im Deutschen, Straße ist so geblieben, Fluss nicht. Weil durch generelles Ersetzen von ß zu ss unwiederbringlich etwas verloren geht (etwa bei Maßnahme zu Massnahme), würde ich das auch für noch so geschätzte Schweizer nicht machen. (Siehe auch unten.)
Zu Einzelheiten siehe:
http://blogabissl.blogspot.com/2015/01/mild-auf-neue-rechtschreibung-andern.html.
• Gedankenstriche sind länger als Bindestriche und haben bei uns vor und hinter sich eine Leerstelle. Auch alte, ganz lange Streckstriche ersetze man durch Gedankenstriche, die sind nicht mehr üblich.
• Fußnoten. Originalfußnoten ändere ich entweder in Endnoten oder bringe sie am Ende des zugehörigen Absatzes, weil der originale Seitenumbruch ja verlorengeht beim Transcribieren. Eigene Fußnoten baue ich zahlreich ein, und zwar immer dort, wo sich der typische Leser etwas nicht erklären kann. (Fußnoten samt ihrem Inhalt lassen sich später in Word durch Ersetzen über Sonstiges, dann Fußnotenzeichen (^f) restlos weglöschen, wenn einer mein Gequassel nicht mag.)
Bei der Suche nach mir Unbekannten im Text entdecke ich selbst für mich ganz neue Sachen, die sogar die Wikipedia nicht kennt, eine Furgel zum Beispiel. Das aber ist ein anderes Thema.
• S p e r r u n g e n und andere Auszeichnungen im Text. Natürlich könnte man eine Sperrung durch größeren Buchstabenabstand darstellen, in Word Format, Zeichen, Zeichenabstand, Laufweite. Bei weiterer Verarbeitung eines Textes geht dergleichen mühsame Finesse aber verloren. Ich ersetze Sperrungen durch die heute übliche mildeste Auszeichnung, Kursivschrift, oder ich lasse Sperrungen ganz unberücksichtigt. Sie dienten der Lesehilfe und sind dann halt jetzt weg.
Mehr zum Thema Auszeichnungen von mir auf www.Joern.De/satz.htm.
Wenn mir noch etwas einfällt, schreibe ich es später dazu: Segen korrigierbarer Blogs!*)
Sie können mir ruhig mailen zum Thema, Fritz@Joern.De
Permanentadresse diesen Blogs: http://blogabissl.blogspot.com/2014/01/alte-texte-bearbeiten.html
*) Die einzige Fraktur, »Old English Text MC«, die Microsoft mitgibt (keine Ahnung, wie die bei Apple erscheint), ist eine ganz fürchterlich überladene Schrift. Standardfraktur ist Bauhaus dagegen. Allerdings gibt’s in Unicode (und damit in HTML, wenn’s gut geht) keine Frakturzeichen. Fraktur ist eine Schriftvariante, keine eigene Schrift. Trotzdem gibt’s ein paar mathematische Zeichen, etwa das ℜ, siehe die gelb markierten Zeichen hier.
Als PS ein Stück aus »Zweiundfunfzig Altfranzösische Lieder und Leiche«, »aus Handschriften zu Bern und Neuenburg«, 1846, wieder einmal dank Google Books! Dort sogar gratis als E-Book zu haben.
Ein altfranzösisches Lied (oder Leich?) |
Zur Geschichte u. a. des dass hier die Geschichte der Rechtschreibreformen, besagend:
»1879: In Österreich wird nach kurzem Vokal die ss-Schreibung statt ß eingeführt.«
»1901: … wird die Heysesche ss-Schreibung abgelehnt und daraufhin 1902 in Österreich wiederabgeschafft.«
• Kürzel. Hier eine weitere Rarität, aus der Wikipedia: »In vielen mittelalterlichen, aber auch in neuzeitlichen Dokumenten findet man ein dem ß gleichendes Zeichen als Abkürzung für sch, wie etwa als Einzelzeichen für die Währung Schilling oder die Abkürzung „ßo“ für das Zählmaß Schock.«
· Mittelhochdeutsche Kürzel hier.
Link zu diesem Eintrag: http://blogabissl.blogspot.de/2014/01/alte-texte-bearbeiten.html
Keine Kommentare:
Kommentar veröffentlichen