Danke dir Hank!
Funktioniert bei mir gut unter Trusty mit xsane aus den Repositories mit einem HP Officejet 5500 der via usb am Raspberry Pi hängt und als Netzwerkscanner läuft.
Anmeldungsdatum: Beiträge: 182 |
Danke dir Hank! Funktioniert bei mir gut unter Trusty mit xsane aus den Repositories mit einem HP Officejet 5500 der via usb am Raspberry Pi hängt und als Netzwerkscanner läuft. |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
|
Anmeldungsdatum: Beiträge: 182 |
Natürlich. Unkraut vergeht nicht 😉 Ich habe gerade die Version aus dem wiki mit meinem aktuellen Dienstvertrag probiert (die Dinger werden auch immer länger und unverständlicher...) Da ist es fein wenn man den schnell bei der Hand hat und stichwortartig das pdf durchsuchen kann. Ich muß sagen dass das Ergebnis ausgezeichnet ist. Vor ~ 10 Jahren als ich es das letzte mal unter damals noch debian probiert habe war OCR unter Linux unbrauchbar dagegen ist das Ergebnis dank google jetzt wirklich sehr gut.
Das werde ich mir sicher anschauen, Danke für den Tipp! |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
Hi!
Ja, da ist etliches passiert... Die xsane2sandwich-Version aus dem Wiki? Dann ist es aber wohl nicht tesseract 3.03, was bei dir läuft? Damit bekomme ich zumindest mit der WIki-Version bzw. mit hocr2pdf und den von tesseract produzierten hOCR-Dateien gar nichts vernünftiges mehr hin. Daher auch die Versionen mit OCRmyPDF; die xsane2TesPDF-Version mit tesseract und der pdf-Konfiguration ist eher ein Schnellschuss, da kann man recht wenig dran drehen, Ausgabe wird riesig (da muss ich auch noch nacharbeiten)...
Gute Software (also OCRmyPDF) verdient Werbung 😉 so long |
Anmeldungsdatum: Beiträge: 1536 |
Heinrich Schwietering schrieb:
Geniales Skript, das Ergebnis ist wirklich gut. Hinweis: Beim Beenden von XSane werden allerdings (bei mir) die Textdateien (0 Byte) nicht gelöscht. TausB |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
Hi! Danke! Hast du bei der Dateiangabe eine Endung mit angegeben? Mal weglassen, ansonsten am Ende des Skriptes einen rm-Befehl mit der verwendeten Endung dazu schreiben ( rm "$FILE_OUT.txt") so long |
Anmeldungsdatum: Beiträge: 1536 |
Heinrich Schwietering schrieb:
Falls ich Du da noch Interpretationsvorschläge brauchst:
@Heinrich Schwietering,
Wunsch-Ergebnis: PDF mit durchsuchbarer rechtschreibgeprüfter (evtl. mit LanguageTool?) Textebene. Eigentlich bin ich mir fast sicher über so etwas schon einmal gelesen zu haben, aber ich finde es nicht wieder ... TausB EDIT |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
Hi! LanguageTool ist mir noch gar nicht untergekommen, da müsste ich erstmal passen, werd' ich mir aber bei Zeiten mal zu Gemüte führen. Rechtschreibprüfung ist mit der direkten PDF-Erstellung von tesseract (und damit leider auch für xsane2tesseractPDF) nicht möglich. Wie man die Markierungen "lesbar" bekommt, weiß ich leider auch nicht. Wäre ggf. beides ein "Issue" auf der tesseract-Seite wert; vielleicht gibts sogar schon was dazu, war länger nicht auf der Seite. Die hocr2pdf-Funktion aus ExactImage funktioniert momentan leider mit tesseract auch nicht mehr, sodass momentan meines Wissens nach nur mit gscan2pdf eine Korrektur möglich ist; allerdings ist das ziemlich unkomfortabel... so long EDIT: Vielleicht hattest du xsane2speech im Sinne, als du funktionierende Rechtschreibprüfung in Erinnerung hattest? Eignet sich aber leider nicht für PDF-Erstellung. Ansonsten gibt es zwar ein Firefox-Plugin, um hOCR-Dateien etwas komfortabler zu bearbeiten, aber da die auf hocr2pdf basierenden PDF-Erstellugen alle mehr oder weniger unbrauchbar geworden sind, ist das auch keine Lösung mehr, wo oben schon angemerkt... Ansonsten könntest du es mit dem DjVu-Format (xsane2djvu) versuchen, in djvusmooth kann man ebenfalls Korrekturen vornehmen. Auch nicht "automatisiert", aber da hat man zumindest einen besseren Gesamtüberblick über den Text als in gscan2pdf. |
Anmeldungsdatum: Beiträge: 1536 |
Heinrich Schwietering schrieb:
Habe etwas geforscht und getestet. Meine These: Die Reihenfolge der Bild- und Textebene sind "nur" vertauscht. Leider habe ich keinen Parameter gefunden, der darauf Einfluß nimmt. EDIT: Oder kann pdftk die Layer tauschen? (Ist der Bildlayer eine Art Wasserzeichen zum Textlayer?) /EDIT. tesseract hat ja ein config-file mit unzähligen Parametern, aber das ist mir zu kompliziert, ich verstehe es nicht ...Bei der Ausgabe von ocrmypdf ist der Text lesbar EDIT2
Ja - das war es!
☹ Danke für Deine Antworten |
Anmeldungsdatum: Beiträge: 1536 |
Das Skript xsane2OCRmyPDF Version 0.2 macht leider Probleme.
Mein Resümee:
Nun mein Wunsch an Heinrich Schwietering: Bitte ändere das xsane2OCRmyPDF-Skript (ist doch bald Weihnachten)... 😎 TausB |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
Hi! Auf die schnelle: Die Dateigröße liegt vermutlich an der 600-Auflösung; die ist im Normalfall auch übertrieben (wenn du nicht gerade Buchstaben im Zehntel-mm-Bereich scannst..); eigentlich sollten 300 dpi für Buchscans dicke ausreichen. Meiner Erfahrung nach sinkt die Erkennungsqualität mit höheren Werten sogar, weil mehr "Rauschen", kleine Flecken, Papierunebenheiten etc, "vergrößert" werden, und das zu Fehl-Erkennungen führt. Ich kann das mit dem xsane2OCRmyPDF-Skript so noch nicht nachvollziehen, aber ich verwende auch nur 300-dpi-Scans; kann es die Tage aber nochmal überprüfen. Vielleicht schaust du dir derweil auch mal pdfsandwich an, da kannst du ziemlich genau anpassen, wie groß deine Ergebnisse werden sollen. so long |
Anmeldungsdatum: Beiträge: 1536 |
Hallo Heinrich Schwietering, meine Kernaussage war: Obwohl nur mit 600dpi gescannt, hatte das durch xsane2OCRmyPDF erstellte PDF eine Auflösung von 1200dpi (!). Die Auflösung hat sich also durch das Skript verändert (!) Ansonsten ist mir klar, dass ich mit geringerer Auflösung kleinere Dateien bekomme ... 😛 Und ja, normal verwende ich auch nur 300dpi. Da ich mit OCRmyPDF sehr zufrieden bin, ist pdfsandwich keine Alternative. Netter wäre es ein xsane-Skript zu verwenden, welches die Auflösung nicht heraufgesetzt. TausB |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
Hi! Ja, schon klar. Versuch mal, im Skript den so long |
Anmeldungsdatum: Beiträge: 1536 |
Heinrich Schwietering schrieb:
Mir nicht, ich scheine da ein Verständnisproblem zu haben. ☹
Ja das kann ich bestätigen, funktioniert. Also wenn der -density DPI-Eintrag geringer als die eingestelle Scan-DPI ist, wird eine PDF mit höhere Auflösung erstellt? Kannst Du mir zum Verständnis die Logik dahinter kurz erläutern? 😎 Daher ich muss das Skript je nach Bedarf vorab manuell anpassen: Der -density Eintrag muss immer dem eingestellten Wert beim Scannen übereinstimmen?! ... Habe noch einmal alles mit 300dpi (-density und xsane) getestet. Ein Phänomen bleibt: Die mit dem Skript erstellte PDF ist signifikant größer (DPI ist aber 300 geblieben) als wenn ich mit den gleichen Einstellungen das PDF manuell mit OCRmyPDF erstelle. Wie kann das sein? Das Skript zum Aufrufen von OCRmyPDF sollte doch eigentlich darauf keinen Einfluss haben?! Danke im voraus für Deine Erklärung. TausB |
Wikiteam
(Themenstarter)
Anmeldungsdatum: Beiträge: 11288 |
Hi!
Schön
Ein 300-dpi-Scan wird mit einer density-Einstellung in der Größe 300 nicht verändert, ein 600-dpi-Scan der gleichen Vorlage ist aber viermal so groß wie ein entsprechender 300 dpi-Scan; insofern erscheint eine Vervierfachung bei density 300 dpi nicht ganz unlogisch.
Scheint so, muss ich mir aber noch mal genauer anschauen.
Kann ich momentan noch nichts genaueres zu sagen; ist mir bisher noch nicht aufgefallen, sollte natürlich so auch nicht sein. Möglich ist, da die PDF-Erstellung im Skript anders abläuft als die interne in Xsane, dass unterschiedliche Voraussetzungen/Größen des "Eingabe"-PDFs für OCRmyPDF bestehen. Bin aber noch nicht dazu gekommen, das genauer aufzubröseln. so long |