10. Februar 2017

PDF und OCR

OCR, Optical Character Recognition, wörtlich: optische Buch­sta­ben­er­kenn­ung, nennt sich bei uns wohl Texterkennung oder optische Zeichenerkennung.
   Die Technik ist immens wichtig: Sie war die erste »Erkennung« mit wirklicher Bedeutung. Spracherkennung mag technisch viel schwieriger sein, ist aber nicht so bedeutend, schon weil unsere Kultur schriftlich und nicht mündlich überliefert wird.
   Ganze Bücher kann man abfotografieren oder einscannen – einen Vergleich davon finden Sie hier –, solange sie nicht in Texte und Buchstaben umgewandlt sind, sind sie höchstens schön anzusehen, wie eine persische Miniatur oder eine chinesische Zeitung für einen des Persischen oder Chinesischen nicht Mächtigen. 
   Suchmaschinen finden Texte nur, wenn sie »lesbar« vorliegen. Im Maschinellen heißt das, dass Google sie findet. Und es heißt, dass es nicht nur einfach Fotos von z.B. Plakaten sind, sondern dass deren schriftlicher Inhalt in Form von Buchstaben vorliegt. Schreiben Sie dazu, was im Bild steht, Sie finden’s dann wieder.

PDF

Das Printable Document Format, genaugenommen “Portable Document Format”, spielt hier eine besondere Rolle. Man sieht zwar das »Dokument«, schön wie gedruckt, aber nicht, ob der Textinhalt mit dabei ist oder nicht. Eine Druckmaschine druckt ein reines Bild genauso, wie die PDF aussieht, egal ob aus den Buchstaben oder Bildern. 
   Eine ordentliche PDF sollte durchsuchbar sein, also OCR-gelesen. Um das zu können, muss die Software, die das tut, viel lernen. Also kostet sie was, heute weniger als früher. 

   Tipps zum Thema.
• Mit dem kostenlosen Acrobat Reader können Sie zwar in einer PDF suchen, wenn sie schon durchsuchbar ist, sie können sie aber nicht erst OCR-lesen.
• Nur mit dem Acrobat Professional können Sie PDFs auch erstellen, und OCR lesen und geich »einbauen«.

Ich überspringe jetzt ein paar Jahre Entwicklung mit einer Ausbreitung von guten, sehr guten, teuren oder kostenlosen, lernfähigen oder hoffnungslosen OCR-Programmen. Da mag jeder eigene Erfahrungen sammeln.

Cloud – die schöne Wolke

Es gibt eine Anzahl von OCR-Programmen, die ihre Arbeit »in der Wolke« verrichten. Suchen Sie einfach nach online OCR. Nur wenige sind kostenlos. Lassen Sie sich nicht von »kostenlosen Downloads« verlocken, die können Sie sich meist sparen!
   Ein Beispiel:

Ich hatte es heute mit OnlineOCR.Net zu tun. Dort können Sie ohne Anmeldung eine Seite lesen lassen, mit Anmeldung sofort mehr. Kostenlos, Gut.
   Am besten können meiner Meinung nach die Russen OCR, mit ihrem Finereader. Hier die Site und:
   Hier der Online-Finereader
Im Gegensatz zu vielen modernen Menschen, kann der Finreader auch Fraktur lesen. Mehr dazu hier.

Wie immer gilt: Wenn mehr Leute lesen als schreiben, bemühe sich der eine Schreiber um Lesbarkeit. Alles andere dagegen wäre unwirtschaftlich.

Permalink hierher: 
http://blogabissl.blogspot.com/2017/02/pdf-und-ocr.html

PS: Wie man einen OCR-Text in (hinter) einem PDF-Dokument korrigiert, das wüsste ich gern. Da scheinen kostenlose Lösungen zu fehlen, Abby hat’s natürlich, 200 Euro.

Vielleicht noch testen http://www.simpleocr.com/OCR-Freeware

Keine Kommentare: