Liebe Leute,
heute wurde ich in der Arbeit von einem Kollegen gefragt, ob ich mich nicht ein wenig mit OCR-Software auskennen würde. Nachdem ich dies verneinen musste, dachte ich mir, ich leite die Frage an euch weiter!
Der Use-Case ist denkbar banal: Es geht um Text aus Büchern, die eingescannt werden und Studenten zur Verfügung gestellt werden sollen. Als Bilder ist das natürlich etwas fade, da die Bereitstellung als PDF z.B. eine Volltextsuche und Lesezeichen mit sich brächte. Da es nur um Auszüge (ein, zwei, drei Seiten) geht, und viele dieser Bücher nicht digital verfügbar sind, wäre die Anfertigung einer digitalen Kopie die beste Möglichkeit für den Kollegen. Die Bücher beinhalten nicht nur reinen Text, sondern auch Bilder.
Drei konkrete Fragen:
Sind diese OCR-Geschichten nur von der Software abhängig? (Mal abgesehen von der Auflösung des Scanners und dem eingestellten Kontrast)
Wenn ja, was würde sich für Software anbieten? Ich nehme einmal an, dass dies nicht unbedingt vom Scanner abhängt. FOSS bevorzugt, sind aber auch bereit, Geld auszugeben. OS Mac, Windows oder Linux, relativ egal, Mac bevorzugt, Hauptsache, die Ergebnisse passen!
Habt ihr vielleicht Erfahrungen, über die ihr berichten könnt?
LG,
Flo