Ein paar Tipps zum Versäubern alter Texte hatte ich versprochen. Vor allem frisch gescannte Texte mit Lesefehlern meine ich, egal ob aus Fraktur oder aus Antiqua. (Wie man
Fraktur scannt, steht hier.)
Als Beispiele gerade erst von mir bearbeiteter Texte darf ich anführen: für Antiqua
einen Zeitungsartikel mit der Bearbeitung auf Seite 2 und folgenden, und für Fraktur
das schöne Sarner Bauernjahr.
•
Arbeitsumfeld. Zunächst forme man sich in seinem bevorzugten Textverarbeitungsprogramm, etwa
Word, den Rohtext aus der OCR so um, dass man ihn optisch gut erkennen kann. Normale Zeilenabstände, normale Schrift (Ich arbeite mit gängiger Times New Roman), normale Buchstabengröße (meist 12 Punkt), genug Rand, das gibt kurze, leicht überschaubare Zeilen. Ich habe mir für dieses Umformen ein Word-Macro gemacht, dann geht das auf einen Schlag.
Überhaupt empfehle ich, typische Korrekturen immer nebenher mitzunotieren. Dann kann man sich später ein Macro machen mit allen üblichen maschinell möglichen Änderungen.
Mit Blick auf das Original wird dann der Text
Wort für Wort gelesen, spannend oder nicht, und Fehler werden
korrigiert. (Der Korrekturmodus ist nicht angesagt, wozu auch?)
•
Zeilenwechsel und Absätze. Gescannte Texte haben meist am Ende jeder Zeile einen »Absatzwechsel« (»Absatzbuchstabe«), zu sehen als ¶ bei eingeschalteter Anzeige der Formatierungszeichen. Die bekommt man bei Word, indem man in der üblichen Symbolleiste ¶ anklickt. (Word meint außerdem: »Sie können zum Ausblenden von Formatierungszeichen auch im Menü
Extras auf
Optionen und anschließend auf die
Registerkarte
Ansicht klicken. Aktivieren oder deaktivieren Sie
die Kontrollkästchen unter
Formatierungszeichen.«)
Ich empfehle überhaupt, das Versäubern mit derart eingeschalteter Sonderzeichenanzeige zu machen.
Die störenden Absatzmarken bekommt man mit
Suchen und Ersetzen weg, in drei Schritten.
Erstens ändert man alle echten Absätze, zu sehen als ¶¶ in die Buchstabenfolge QWERTZ oder sonst eine Zeichenfolge, die im Text gewiss nicht vorkommt. (Das Absatzzeichen bekommt man in Words
Suchen und Ersetzen über (unten)
Sonstiges als
Absatzmarke oder
^p.)
Zweitens ändert man alle verbliebenen einzelnen Absatzmarken ¶ in garnichts, löscht sie damit also heraus. Jetzt ist der Text ein durchgehend fließender Block. Doch keine Angst:
Als Drittes ersetzt man am Schluss alle QUERTZ zurück in "¶ " – Absatz
und drei Leerstellen! Noch besser sind drei
geschützte Leerzeichen, ^s. In Words
Suchen und Ersetzen sieht das Einzusetzende dann so aus: ^p^s^s^s, wobei wohl p für paragraph, Absatz, und s für space, Leerstelle steht. Das hat den Vorteil, dass Absätze gleich mit einem
Einzug beginnen, was fürs Lesen sehr wichtig ist.
Schriftsatzregel: Absätze durch Leerzeile (
Durchschuss) oder Einzug. Ganz am Anfang also keinen Einzug. Tabs und dergleichen besondere Einzüge meide ich, weil sie bei weiterer Bearbeitung leicht verschwinden.
•
Umlaute. Besonders die gescannte Buchstabenfolge ii ist verdächtig, auch il und dergleichen. Das sind oft kleine ü. Die
Tremapunkte (Bin ich nicht ein Angeber!) gehen beim Scannen gern verloren.
|
Das lange
(kleine) S |
•
Das lange S. In Fraktur, aber auch in Antiqua, in Deutschland und anderswo, wurde früher im Wort das ſ verwendet, eine lange Geſchichte. Dazu gab’s
Ligaturen, also »zusammengeklebte« Buchstaben wie st (st), sogar ein
rundes kleines R hat es gegeben, etwa in
rc,
relinquo cetera, heute
etc. bezw.
&, schön im
Typeforum dargestellt.
Jedenfalls müssen das lange ſ und die Ligaturen raus, schon damit der Text maschinell durchsuchbar bleibt. Beim OCRen wird ſ leicht zu f,
Oſtfriesland zu
Oftfriesland – Sie sehen, wie unlesbar das im Gegensatz zu
Ostfriesland ist.
Weitere Schriftkürzel erwähnt Andreas Hauser in seiner lesenswerten (englischen) Magisterarbeit zu unserem Thema:
OCR Postcorrection of Historical Texts, in Tabelle 2.1
Schön die Geschichte mit den
Tironischen Noten. Zu
Ligaturen in HTML hier.
Das
c kommt im Deutschen nur in Verbindung mit
h als
ch vor, sonst sind’s höchstens Fremdwörter. Vagadundierende
cs kann man suchen und dann oft zu
o ändern, oder das
h dahinter wurde falsch gelesen. Zitat:
Da wir, gleich den Griechen und Slaven, die tenuis des gutturallauts
mit K ausdrücken, so ist dafür das aus dem lateinischen Alphabet
entnommene C ganz überflüssig, fehlt darum auch der gothischen und
altnordischen schrift, die Slaven verwenden es für S, die Polen und
Böhmen für Z. (…)
unentbehrlich aber bleibt, solange wir für die kehlaspirata kein einfaches Zeichen, wie die Gothen das gr. X, annehmen, C in CH. (aus dem
Grimmschen Wörterbuch, übernommen aus der
Wikipedia)
|
Statt AH steht da aber FH. |
•
Großbuchstaben. Die waren früher oft besonders schmuck – und damit unlesbar –, oder gar als
Initiale gesetzt. Das kann man zwar mit Word nachbilden,
Format, Initial…, besser ist, man lässt es sein. Der neue Text soll nicht schön, er soll normal zu lesen sein. Wie man Initiale (engl. auch
dropcap) in HTML setzt, steht
z. B. hier.
Berühmt ist der Fall der falschen Frakturgroßbuchstaben (in vergoldetem Plastik) auf den falschen Hitlermemoiren,
FH statt AH, noch dazu gesetzt in pompöser “
Engravers’ Old English” vom Amerikaner
Morris Fuller Benton 1901.
•
Trennungen. Als Trennzeichen am Zeilenende stehen oft =, jedenfalls in Fraktur. Die OCR-Leser verwechseln das dann mit Bindestrichen und Leerzeichen. Vielleicht empfiehlt es sich da, von vorne herein "- " (also Bindestrich+leer) herauszuwerfen. Schaden kann das wenig.
Ein Sonderfall ist die alte Trennung von
ck in
k-k, etwa
recken in
rek-ken. Da muss man das ungetrennte Wort einsetzen.
Im Ergebnis sollten jedenfalls keine Trennungen vorkommen, und Binde-Striche sollten echte solche sein.
•
Orthographie. Ich schlage vor, dezent auf die neue deutsche Rechtschreibung umzusetzen. Der Leser soll nicht unnötig an Ungewohntem hängenbleiben, und Suchmaschinen sollen Gesuchtes mit der üblichen Schreibweise finden können. Die neue
Worttrennung setze ich nicht ein,
wohlfühen bleibt bei mir ein Wort – in der neuen Rechtschreibung übrigens auch, keine Angst. Wenn alte Schreibweisen allerdings typisch sind, sagen wir
Ribl statt
Riebl oder
Riebel, so lasse ich das. So etwas erkläre ich sowieso in einer Fußnote und erwähne dort moderne, unterschiedliche Schreibweisen. Hauptsächlich das
daß mache ich zu
dass, das reicht oft schon, um den Text modern lesbar zu machen. Und das geht mit Suchen und Ersetzen.
Übrigens:
Das ß ist durchaus noch da im Deutschen,
Straße ist so geblieben,
Fluss nicht. Weil durch generelles Ersetzen von
ß zu
ss unwiederbringlich etwas verloren geht (etwa bei
Maßnahme zu
Massnahme), würde ich das auch für noch so geschätzte Schweizer nicht machen. (Siehe auch unten.)
Zu Einzelheiten siehe:
http://blogabissl.blogspot.com/2015/01/mild-auf-neue-rechtschreibung-andern.html.
•
Gedankenstriche sind länger als Bindestriche und haben bei uns vor und hinter sich eine Leerstelle. Auch alte, ganz lange Streckstriche ersetze man durch Gedankenstriche, die sind nicht mehr üblich.
•
Fußnoten. Originalfußnoten ändere ich entweder in Endnoten oder bringe sie am Ende des zugehörigen Absatzes, weil der originale Seitenumbruch ja verlorengeht beim Transcribieren. Eigene Fußnoten baue ich zahlreich ein, und zwar immer dort, wo sich der typische Leser etwas nicht erklären kann. (Fußnoten samt ihrem Inhalt lassen sich später in Word durch Ersetzen über
Sonstiges, dann
Fußnotenzeichen (^f) restlos weglöschen, wenn einer mein Gequassel nicht mag.)
Bei der Suche nach mir Unbekannten im Text entdecke ich selbst für mich ganz neue Sachen, die sogar die Wikipedia nicht kennt, eine Furgel
zum Beispiel. Das aber ist ein anderes Thema.
•
S p e r r u n g e n und andere
Auszeichnungen im Text. Natürlich könnte man eine Sperrung durch größeren Buchstabenabstand darstellen, in Word
Format, Zeichen, Zeichenabstand, Laufweite. Bei weiterer Verarbeitung eines Textes geht dergleichen mühsame Finesse aber verloren. Ich ersetze Sperrungen durch die heute übliche mildeste Auszeichnung, Kursivschrift, oder ich lasse Sperrungen ganz unberücksichtigt. Sie dienten der Lesehilfe und sind dann halt jetzt weg.
Mehr zum Thema Auszeichnungen von mir auf
www.Joern.De/satz.htm.
Wenn mir noch etwas einfällt, schreibe ich es später dazu:
Segen korrigierbarer Blogs!*)
Sie können mir ruhig mailen zum Thema,
Fritz@Joern.De
Permanentadresse diesen Blogs:
http://blogabissl.blogspot.com/2014/01/alte-texte-bearbeiten.html
*) Die einzige Fraktur, »Old English Text MC«, die Microsoft mitgibt (keine Ahnung, wie die bei Apple erscheint), ist eine ganz fürchterlich überladene Schrift. Standardfraktur ist Bauhaus dagegen. Allerdings gibt’s in Unicode (und damit in HTML, wenn’s gut geht) keine Frakturzeichen. Fraktur ist eine Schriftvariante, keine eigene Schrift. Trotzdem gibt’s ein paar mathematische Zeichen, etwa das ℜ,
siehe die gelb markierten Zeichen hier.
Als
PS ein Stück aus
»Zweiundfunfzig Altfranzösische Lieder und Leiche«, »aus Handschriften zu Bern und Neuenburg«, 1846, wieder einmal dank Google Books! Dort sogar gratis als E-Book zu haben.
|
Ein altfranzösisches Lied (oder Leich?) |
Schon im Vorwort stets æ-Ligatur statt ä, Ue für Ü, natürlich langes ſ, und, wie wohl bis zur ersten deutschen
Rechtschreibreform 1901 (oder passierte das schon 1876?) üblich: muss mit ss. Und hinter dem Titel ein Punkt, den man längst nicht mehr setzt. Was hier meine gesuchten
Leiche sind,
weiß ich wieder einmal dank Wikipedia, Stichwort Leich.
Zur Geschichte u. a. des
dass hier die Geschichte der Rechtschreibreformen, besagend:
»1879:
In Österreich wird nach kurzem Vokal die
ss-Schreibung statt
ß eingeführt.«
»1901: … wird die Heysesche
ss-Schreibung abgelehnt und daraufhin 1902 in Österreich wiederabgeschafft.«
•
Kürzel. Hier eine weitere Rarität,
aus der Wikipedia: »In vielen mittelalterlichen, aber auch in neuzeitlichen Dokumenten findet man ein dem ß gleichendes Zeichen als Abkürzung für
sch, wie etwa als Einzelzeichen für die Währung
Schilling oder die Abkürzung „ßo“ für das Zählmaß
Schock.«
· Mittelhochdeutsche Kürzel
hier.
Link zu diesem Eintrag:
http://blogabissl.blogspot.de/2014/01/alte-texte-bearbeiten.html