27. Januar 2017

Digital Suchen

Tipps für die digitale Suche



Strg+F beziehungsweise Ctrl+f (f für finden) ist eigentlich: suchen. Das geht so in vielen Programmen.


Fresnellinse – Foto Hahn, Wikipedia

• Mit der Ctrl-F-Suche sucht man auf der angezeigten Seite nach dem Suchbegriff, im obigen Beispiel nach »Suchen«. Weil sich diese Suche auf einen begrenzten Bereich beschränkt, kann sie – wie man das als Mensch auch täte – von oben nach unten sequentiell geschehen, sozusagen à la carte und jedesmal frisch. Da sind Teilmengen kein Problem: Suche nach »such« findet auch »Suchen«,
• … sofern Groß-Kleinschreibung so eingestellt ist, dass Groß- und Kleinbuchstaben gleichermaßen »auslösen«. Notfalls prüfe man das an einem offensichtlichen Begriff auf der Seite.
• Soll in größeren Bereichen (großen Corpora) gesucht werden, etwa im ganzen PC, oder »die Festplatte«, dann würde sequentielles Suchen lang dauern. Wenn der Computer erwartet, dass dergleichen passieren wird, so indiziert er den ganzen eventuell später zu durchsuchende Bereich: 
   Das heißt er merkt sich die Wörter und wo sie vorkommen in einer eigenen Tabelle. Google macht das so mit dem ganzen Internet!
   Wer z.B. in der Wikipedia nach »« sucht, bekommt nur alleinstehende »Jö«, »Jo« und »Joe«, nicht Jörn, Johannes oder jö. 
   Ich indiziere mit uralten, kostenlosen Programmen, bei denen ich weiß, was genau sie tun: meine Mails mit »Lookout for Outlook« und meinen Computer mit »Google-Desktop«. Neue Betriebssysteme indizieren standardmäßig. Das kann man aber auch abschalten, z.B. wenn man meint, es würde seine SSD (»Fest-Festplatte«) zu sehr abnützen, Stichwort »Indizierunsoptionen«. Nicht sinnvoll ist, mehrere Programme dasselbe indizieren zu lassen.
Fotos zu suchen – das geht schwer. Fotos im Internet kann man über die Google-Bildersuche suchen, mit mäßigem Erfolg. Ich hab’s schon dreimal öffentlich probiert, hier und hier und hier. Ganz witzig, aber noch in den Kinderschuhen. (Suche in eigenen Online-Fotoalben ist noch mühsamer, hier.)
   Ich empfehle beim Import von Bildern in den PC die Bilder sinnvoll umzubenennen, möglichst so, dass die Namensbestandteile für die Indizierung erkennbar bleiben, etwa »München_Marienplatz_2014« statt »MünchenMarienplatz2014«. Wer da mehr Erfahrung hat, bitte melden!
• Viel Erfolg!

Suchen in PDF-Dokumenten
Schauen Sie sich das an: Da sieht sich wer diese Seite an und geht mit Ctrl+F auf Suche.
   Erstens klappt die übliche Web­sei­ten­su­che links unten nicht, nein, der bombastische neue “Reader” hat seine eigene Suche, ge­gen­über rechts oben im eigenen Kästchen.
   Vor allem aber findet diese PDF-Suche überhaupt nichts, siehe das Wörtchen »sich«. 
   Was ist da los? Der die PDF-Datei ins Web gestellt hat, hat sie nur abgebildet, nicht OCR-gelesen. Sie ist und bleibt ein Foto aus einem Buch. Ungelesen, auch von Google, und damit unsuchbar.
   Was tun? Herunterkopieren, mit dem eigenen PDF-Programm aufgreifen, wenn das OCRen kann, OCR durchführen, zurückspeichern. Sieht genauso aus, ist dann aber durchsuchbar. Ins Internet zurückspeichern können Sie’s nicht, außer die Site gehört Ihnen …
  Ergebnis: Jetzt findet die Suche »sich« – wo­bei sie in meinem alten Acrobat Professional 8 wieder anders aussieht. Das vorhin gesuchte »sich« wird übigens immer noch nicht ge­fun­den, weil der unverlässliche OCR-Prozess die Seite nicht hatte lesen mögen, das jedoch verheimlicht hat.

   Bessere OCR-Erfahrungen habe ich mit dem kostenlosen onlineOCR.Net gemacht (bei mehrseitigen Dokumenten anmelden!), der »frisst« auch Seiten mit Fußnoten und manch anderem, das mein alter Adobe Acrobat “Professional” unge-OCT-t liegen lässt – im Beispiel das »sich« von oben!

Keine Kommentare: