Ich habe einen Haufen PDF-Dateien. Sie sind vor langer Zeit mit 600 dpi als Farbscans eingelesen worden und anschließend durch eine OCR gegangen, damit sie durchsuchbar sind und die OCR möglichst gut gut funktioniert.
Ich möchte
die Scan-Auflösung z.B. auf 200 dpi verringern,
gleichzeitig den Ausgabe-Farbraum reduzieren (vielleicht auf drei bis vier diskrete Farben, z.B. rot, grün, blau, schwarz - gibt es für farbig gedruckte Schriftstücke so was überhaupt? - notfalls will ich den Farbraum sogar auf schwarz-weiß reduzieren)
dabei die erkannte Textebene (aus der OCR, die schon stattgefunden hat) erhalten. Dieser Punkt ist mir besonders wichtig.
damit diese Dateien nicht so viel Platz einnehmen.
Ganz toll wäre es, wenn man bei der Diskretisierung auf den eingeschränkten Farbraum (z.B. die wenige diskreten "Farben rot, gelb, grün, blau, schwarz") auch noch die Schwellen, ab denen etwas den eingeschränkten Farben zugewiesen wird, vorab wählen könnte (die Farben, um die es geht, könnte man z.B. von Hand vorab per Gimp ermitteln). Aber im extremen Fall würde ich mich auch mit PDF-Dateien zufriedengeben, wie sie aus einem diskreten Schwarz-Weiß-Scan herauskommen.
Es handelt sich um viele vorhandene Dateien. Neu mit anderen Parametern einscannen ist keine Lösung, weil die Dokumente nicht an im Original greifbar sind.