staging.inyokaproject.org

DjVu mit Textebene in PDF

Status: Gelöst | Ubuntu-Version: Ubuntu 12.04 (Precise Pangolin)
Antworten |

Krümelomat

Avatar von Krümelomat

Anmeldungsdatum:
18. Oktober 2010

Beiträge: 991

http://wiki.ubuntuusers.de/djvu2pdf

Der Vorschlag hat leider nicht funktioniert, hab mir daraus aber ein Script gebaut. Hat jemand eine bessere Lösung. Weil es ist etwas umständlich und die Textebene ist verschoben und nicht sehr passgenau.

DjVu Datei indirekt abspeichern

for i in *.djvu; do ddjvu -format=tiff $i ${i%djvu}tiff; done
(evtl. '-n' '...-format=tiff -1 $i'...)

for i in *.djvu; do djvu2hocr $i > ${i%djvu}hocr; done

for i in *.tiff; do hocr2pdf -i $i -o ${i%tiff}pdf < ${i%tiff}hocr; done

pdftk *.pdf cat output combined.pdf

Krümelomat

(Themenstarter)
Avatar von Krümelomat

Anmeldungsdatum:
18. Oktober 2010

Beiträge: 991

So hab eine sehr schnelle und äußerst effiziente Methode gefunden:

mit DjView4 öffnen und gesamtes Dokument mit vielen Seiten als einzelne Tiff speichern.

mit wine Finereader 5 ausführen und Tiff öffnen, alle Seiten erkennen und als einzelne Pdf speichern.

mit:

"gs -sDEVICE=pdfwrite -o out.pdf in.pdf"

nochmal kräftig in der Dateigröße komprimieren und man hat ein etwa gleich großes Dokument, manchmal kleiner manchmal größer. Die Textlayer passt perfekt, Finereader ist schnell. Liefert bei den Dokumenten soweit ich gesehen habe bessere Ergebnisse als Tesseract.

Antworten |