staging.inyokaproject.org

PDF-Datei mit eingebetteter Textebene reduzieren

Status: Ungelöst | Ubuntu-Version: Ubuntu 20.04 (Focal Fossa)
Antworten |

4-Elster-4

Anmeldungsdatum:
23. Oktober 2014

Beiträge: 93

Ich habe einen Haufen PDF-Dateien. Sie sind vor langer Zeit mit 600 dpi als Farbscans eingelesen worden und anschließend durch eine OCR gegangen, damit sie durchsuchbar sind und die OCR möglichst gut gut funktioniert.

Ich möchte

  • die Scan-Auflösung z.B. auf 200 dpi verringern,

  • gleichzeitig den Ausgabe-Farbraum reduzieren (vielleicht auf drei bis vier diskrete Farben, z.B. rot, grün, blau, schwarz - gibt es für farbig gedruckte Schriftstücke so was überhaupt? - notfalls will ich den Farbraum sogar auf schwarz-weiß reduzieren)

  • dabei die erkannte Textebene (aus der OCR, die schon stattgefunden hat) erhalten. Dieser Punkt ist mir besonders wichtig.

damit diese Dateien nicht so viel Platz einnehmen.

Ganz toll wäre es, wenn man bei der Diskretisierung auf den eingeschränkten Farbraum (z.B. die wenige diskreten "Farben rot, gelb, grün, blau, schwarz") auch noch die Schwellen, ab denen etwas den eingeschränkten Farben zugewiesen wird, vorab wählen könnte (die Farben, um die es geht, könnte man z.B. von Hand vorab per Gimp ermitteln). Aber im extremen Fall würde ich mich auch mit PDF-Dateien zufriedengeben, wie sie aus einem diskreten Schwarz-Weiß-Scan herauskommen.

Es handelt sich um viele vorhandene Dateien. Neu mit anderen Parametern einscannen ist keine Lösung, weil die Dokumente nicht an im Original greifbar sind.

sh4711

Anmeldungsdatum:
13. Februar 2011

Beiträge: 655

Sende bitte mal eine Beispiel- / Dummydatei, das wäre hilfreich. (PDF inkl. Bild und Textebene)
Ggf. hilfreich wäre auch die Info mit welchen Programmen die PDFs erzeugt wurden bzw. was du schon versucht hast um an dein Ziel zu kommen.

Bis dahin schau dir bitte mal folgendes an ... vielleicht hilft dir das weiter:

Antworten |