OCRmyPDF › Rund ums Wiki › Aktiv werden › Forum › staging.inyokaproject.org

OCRmyPDF

« Vorherige12 Nächste »

Status: Gelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |

Dieses Thema ist die Diskussion des Artikels OCRmyPDF.

Heinrich_Schwietering Wikiteam Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 22. Dezember 2013 13:05 (zuletzt bearbeitet: 29. Dezember 2013 15:34) Hi! OCRmyPDF: Auf Hinweis von aasche (in den Wiki/Artikelideen, keine Ahnung, warum er mich da als Ideengeber reingeschrieben hat, vielleicht weils "mein" Metier ist 😉 ) noch ein - anscheinend sehr zuverlässiges - Programm zur Textlagenerstellung für PDF-Dateien, Ausgabe in PDF/A. Momentan keine Installation vorgesehen, muss auch noch ein wenig testen, vielleicht könnte das noch jemand sonst versuchen? Leicht OT: Wo baue ich den ggf. mal einen direkten Vergleich mit Ergebnissen zwischen den ganzen pdf-ocr-Programmen ein, die sich so angesammelt haben? Eine Art Übersichtsseite dazu erstellen, und von Texterkennung und PDF drauf verlinken? so long hank
march Anmeldungsdatum: 12. Juni 2005 Beiträge: 17329	Zitieren 22. Dezember 2013 13:30 Momentan keine Installation vorgesehen, muss auch noch ein wenig testen, vielleicht könnte das noch jemand sonst versuchen? Ich habe mir momentan sehr viel vorgenommen , das paßt derzeit schlecht in meinen Zeitplan. 😉 Unter Optionen ist noch ein kleiner Syntaxfehler (-h ). Leicht OT: Wo baue ich den ggf. mal einen direkten Vergleich mit Ergebnissen zwischen den ganzen pdf-ocr-Programmen ein, die sich so angesammelt haben? Eine Art Übersichtsseite dazu erstellen, und von Texterkennung und PDF drauf verlinken? Macht Sinn - wobei solch eine Seite immer gepflegt werden muss...
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 22. Dezember 2013 21:55 (zuletzt bearbeitet: 22. Dezember 2013 23:59) Hi! testing, testing...Ooops, da liegen Anspruch und Wirklichkeit wohl "etwas" auseinander... Mal sehen, ob ich 'ne eingescannte PDF hinbekomme, mit der das Teil funktioniert.... EDIT: precise scheint schlicht "zu alt" zu sein, unter saucy läuft das mit 1.0-stable (fast) wie geschmiert. Gibt nur eine seltsame Meldungen, bei bunten Vorlagen: OCRmyPDF.sh: 232: [: sRGB: unexpected operator bzw bei schwarzweißen: OCRmyPDF.sh: 232: [: Gray: unexpected operator EDIT 2 Problem ist in Version 2.x auch gelöst, lag an Inkompatibilitäten zwischen sh und bash... Getestet Precise also raus, jetzt muss ich nur noch an der systemweiten Verwendung prokeln; es gibt aber wohl eine config-Datei, in der die Pfade angegeben werden können, dann sollte es auch über /usr/local/share/ laufen können... so long hank
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 23. Dezember 2013 07:32 (zuletzt bearbeitet: 23. Dezember 2013 08:21) Hi! Puh, was ein Fummelkram mit der "systemweiten" Installation 😮 ... Hoffentlich erbarmt sich bald jemand des Programms und baut Pakete dafür 😉. Die Ergebnisse sind allerdings echt das beste, was ich bisher an Texterkennung für PDFs gesehen hab. 👍, Schade das es unter precise nicht so richtig hinhaut. Soweit wäre ich also durch; aber vielleicht gibt es elegantere Lösungen für den Fummelkram? so long hank
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 29. Dezember 2013 14:54 (zuletzt bearbeitet: 29. Dezember 2013 15:35) Hi! Na, wenn's nichts mehr dazu gibt, verschieb' ich das mal: OCRmyPDF ☺ . so long hank
Killerkaninchen Anmeldungsdatum: 19. März 2009 Beiträge: 281	Zitieren 4. Januar 2014 15:12 Hi Vieleicht habe ich doch was dazu. Wenn ich die stabile Version von OCRmyPDF aufrufe (egal ob nach systemweiter "Installation" oder aus dem Ordner heraus in den ich es runtergeladen habe), dann erscheint folgendes: Killerkaninchen@Killerkaninchen-desktop:~$ /home/Killerkaninchen/Downloads/OCRmyPDF-1.0-stable/OCRmyPDF.sh /home/Killerkaninchen/Lieferschein.pdf /home/Killerkaninchen/Lieferscheintest.pdf ls: Zugriff auf ./tmp/20140104_1429.filename.Lieferschein/0001_Image* nicht möglich: Datei oder Verzeichnis nicht gefunden Expecting exactly 1 image on page 0001 (found 0). Exiting... Egal welche Option ich angebe, mit Anführungszeichen oder ohne usw... Die Dateien page-sizes.txt und tmp.txt werden im tmp-Ordner angelegt. Die page-sizes.txt zum Beispiel mit folgendem Inhalt: 0001 612 792 0002 612 792 In der Version 2.x heißt die erste Datei pages-info.txt. Der Inhalt ist aber identisch. Bei dem Projekt selber bin ich nur darauf gestoßen, dass das Zeichen # im Namen für einen Absturz des Skriptes sorgt (https://github.com/fritz-hh/OCRmyPDF/issues/34). Das trifft auf meine PDF ja nicht zu. Auf andere Infos bin ich im Netz nicht gestoßen. Die im Artikel angegebenen Pakete sind installiert. Mit der Version 2.x scheint es zu funktionieren, obwohl teilweise die selbe Fehlermeldung auftritt: Killerkaninchen@Killerkaninchen-desktop:~$ /home/Killerkaninchen/Downloads/OCRmyPDF-2.x/OCRmyPDF.sh /home/Killerkaninchen/Lieferschein.pdf /home/Killerkaninchen/Lieferscheintest.pdf ls: Zugriff auf ./tmp/20140104_1436.filename.Lieferschein/0001_Image* nicht möglich: Datei oder Verzeichnis nicht gefunden rm: das Entfernen von »./tmp/20140104_1436.filename.Lieferschein/0001_Image.“ ist nicht möglich: Datei oder Verzeichnis nicht gefunden Page 0001: Expecting exactly 1 image on page 0001 (found 0). Page might not (only) contain a scanned image !!! Page 0001: Continuing anyway, assuming a default resolution of 300 dpi ls: Zugriff auf ./tmp/20140104_1436.filename.Lieferschein/0002_Image* nicht möglich: Datei oder Verzeichnis nicht gefunden rm: das Entfernen von »./tmp/20140104_1436.filename.Lieferschein/0002_Image.“ ist nicht möglich: Datei oder Verzeichnis nicht gefunden Page 0002: Expecting exactly 1 image on page 0002 (found 0). Page might not (only) contain a scanned image !!! Page 0002: Continuing anyway, assuming a default resolution of 300 dpi Vielleicht weiß ja jemand, wie man die stabiel Version nutzen kann, denn die ist ja schließlich zu bevorzugen... Gruß Killerkaninchen
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 4. Januar 2014 16:41 (zuletzt bearbeitet: 4. Januar 2014 16:43) Hi! Das Problem scheint in deiner PDF-Datei begründet zu sein. Was ist es für eine Datei, von welchem Programm erstellt? Kannst du es anderweitig konvertieren? Geht es mit z.B. von XSane erstellten PDFs? (Und auf was für einem Rechner bzw. Ubuntu-Version läuft das bei dir?) so long hank
Killerkaninchen Anmeldungsdatum: 19. März 2009 Beiträge: 281	Zitieren 4. Januar 2014 19:38 (zuletzt bearbeitet: 4. Januar 2014 19:56) Ich nutze Ubuntu 13.10. Das Dokument scheint im Grunde genommen ein Word-Dokument zu sein...?! (Steht zumindest in Okular mit der Endung .doc) Habe jetzt mal ein bischen gestestet: Mittels LibreOffice Writer erstellte PDFs funktionieren nicht (gleiche Fehlermeldung). Ich habe keine (Word-)Textdateien importiert, sondern zu Testzwecken aus meinem ersten Post hier gerade eine PDF-Datei erstellt. Zudem habe ich noch eine weitere Test-Datei ohne jegliche Sonderzeichen erstellt. Das selbe Ergebnis... Ein mit xsane als PDF abgespeicherter Artikel hat dagegen funktioniert. Version 2.x macht bei keiner der Dateien Probleme... EDIT: Mittlerweile ist mein Rechner auch damit fertig eine 1,3MB große Datei zu bearbeiten. Sie funktioniert einwandfrei ist aber jetzt 209MB groß und das ganze hat 40 Minuten gedauert (3,5GB RAM, AMD Athlon 64 X2 4600+ - also nicht mehr ganz taufrisch...). Könnte ja auch ganz interessant sein...?
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 4. Januar 2014 19:55 (zuletzt bearbeitet: 5. Januar 2014 11:32) Hi! Hm, eigentlich ist das Programm nur für PDF-Dateien ohne Text sinnvoll (also z.B. selbstgescannte), ein PDF, was du per Windows (EDIT Word z.B.), oder mit LibreOffice erstellst, ist per se "durchsuchbar", braucht also keine extra Textlage, und ist insofern auch kein "grafisches" PDF. Ich kann mir vorstellen, dass Version 2.x das einfach erkennt, und nur in PDF/A umformt, während die stable-Version damit Probleme hat, weil kein "Bild" gefunden wird (wie deine Fehlermeldung ja zeigt...) so long hank
Killerkaninchen Anmeldungsdatum: 19. März 2009 Beiträge: 281	Zitieren 4. Januar 2014 19:57 Dann hatte ich es wohl falsch verstanden. (Habe mich beim Ausprobieren allerdings auch etwas gewundert...)
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 6. Januar 2014 08:17 Hi! Hab' noch einen entsprechenden Hinweis wg. der PDFs aus Textbearbeitungsprogrammen eingefügt; das gilt natürlich auch für andere Pdf2Ocr-Programme (hatten das Thema soweit ich mich erinnere auch anderswo schon mal so ähnlich, sollte also wohl auch auf der Texterkennungsseite einen Hinweis zu den PDF-Programmmen einbauen.) so long hank
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 19. Juli 2014 14:59 Hi! Mit dem EOL von Saucy derzeit ungetestet; werde es die Tage mit Trusty versuchen. so long hank
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 26. Juli 2014 15:56 (zuletzt bearbeitet: 26. Juli 2014 16:07) Hi! Geht auch unter Trusty, habe die "systemweite Installation" jetzt ein bisschen einfacher hinbekommen. Da xsane2sandwich unter Trusty bei mir zumindest ziemlich lausige Ergebnisse liefert (keine Ahnung, was da wieder schiefläuft...) habe ich noch eine Version, sozusagen "xsane2OCRmyPDF", zusammengebastelt, mit der man PDFs mit Textlagen direkt aus XSane heraus erstellen kann. Das geht natürlich nur unter Trusty (jedenfalls hab' ich OCRmyPDF unter Precise nicht zum Laufen bekommen). Passt das besser hier in den Artikel, oder in den bestehenden xsane2sandwich-Artikel, oder soll ich einen eigenen Artikel dafür machen? so long hank
passer-domesticus Anmeldungsdatum: 25. August 2008 Beiträge: 127	Zitieren 28. Dezember 2015 14:07 Das Link am Beginn des Artikels geht an eine mittlerweile stillgelegte Stelle. Ich habe es durch das (hoffentlich) richtige ersetzt, es dabei aber nicht hinbekommen, daß da nur OCRmyPDF steht und das Link selbst hinter diesem Text verborgen liegt. Es wäre schön, wenn das noch jemand korrigiert. An der Stelle, an der es um das Entpacken des Archivs geht, bleibt mir etwas unklar (bin halt Anfänger): Soll man etwa alles nach /opt entpacken? Weil man danach noch Symlinks anlegt, scheint mir das ganze doch so gedacht zu sein, daß man für den variablen Teil besser andere Plätze nimmt. Aber welche wären da denn zu empfehlen? Für temporäre Daten vielleicht /tmp? /opt gehört doch root und es sieht so aus, als ob das Programm dort auch noch Arbeitsverzeichnisse (tmp, ist jhove auch so eins) für Zwischendaten anlegt. Geht das Programm dann überhaupt? Oder muß man dann vor alles unnötig sudo setzen? passer domesticus
aasche Anmeldungsdatum: 30. Januar 2006 Beiträge: 14259	Zitieren 29. Dezember 2015 13:44 passer-domesticus schrieb: Das Link am Beginn des Artikels geht an eine mittlerweile stillgelegte Stelle. Ich habe es durch das (hoffentlich) richtige ersetzt, es dabei aber nicht hinbekommen, daß da nur OCRmyPDF steht und das Link selbst hinter diesem Text verborgen liegt. Es wäre schön, wenn das noch jemand korrigiert. erledigt. An der Stelle, an der es um das Entpacken des Archivs geht, bleibt mir etwas unklar (bin halt Anfänger): Soll man etwa alles nach /opt entpacken? Weil man danach noch Symlinks anlegt, scheint mir das ganze doch so gedacht zu sein, daß man für den variablen Teil besser andere Plätze nimmt. Aber welche wären da denn zu empfehlen? Für temporäre Daten vielleicht /tmp? /opt gehört doch root und es sieht so aus, als ob das Programm dort auch noch Arbeitsverzeichnisse (tmp, ist jhove auch so eins) für Zwischendaten anlegt. Geht das Programm dann überhaupt? Oder muß man dann vor alles unnötig sudo setzen? Gute Frage... /opt hat halt den Vorteil, dass auf Mehrbenutzersystemen keine mehrfache Installation erfolgen muss. Ansonsten wuerde ich bei reinen Desktop-Systemen mit einem einzigen Nutzer immer empfehlen, innerhalb des eigenen Homeverzeichnisses zu agieren, um der Rechteproblematik aus dem Weg zu gehen.

« Vorherige12 Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »