staging.inyokaproject.org

pdf-Datei reparieren

Status: Gelöst | Ubuntu-Version: Ubuntu 10.04 (Lucid Lynx)
Antworten |

Mojo_Dodo

Anmeldungsdatum:
31. Januar 2008

Beiträge: Zähle...

Hallo,

ich habe eine pdf-Datei (Seiten eines Buches, eingescannt mit einem Buchscanner in der Bücherei) welche ich leider nicht öffnen kann. Von Evince erhalte ich beim öffnen die Meldung "Dokument konnte nicht geöffnet werden - PDF document is damaged", der AcrobatReader sagt, die Datei sei beschädigt und könne nicht repariert werden. Die gleiche Meldung erhalte ich auch vom AcrobatReader unter Windows.

Nun habe ich zwei Programme gefunden mit denen man pdf-Dateien reparieren kann. Das eine nennt sich "Recovery Toolbox for PDF", das andere "Advanced PDF Repair". Beide Programme sind in der Lage die Datei wieder zu "reparieren". Das Problem ist zum einen, dass dies Windowsprogramme sind und zudem erhalte ich keine reparierte pdf-Datei, sondern nur die erste Seite (weil es sich nur um Demoversionen handelt). Das zeigt aber, dass die Datei an sich wiederherzustellen ist. Schaffe ich das irgendwie mit Ubuntu? Ich habe versucht die Datei mit dem Programm pdf-Shuffler zu öffnen, was leider nicht funktioniert. Ich habe auch versucht die Datei mit dem Programm PDF Chain zu verändern, aber wenn ich sie z. B. um 180° drehe oder in mehrere Dateien aufteilen will erhalte ich die Meldung "PDFTK retruns an error".

Hat jemand eine Idee was ich noch versuchen könnte?

Benno-007

Anmeldungsdatum:
28. August 2007

Beiträge: 29240

Suchfunktion hilft. Sie verrät mir folgenden Versuch (selbst herausgearbeitet):

sudo apt-get install qpdf
fix-qdf < infilename > outfilename

Die </> müssen hier so erhalten bleiben!

Mojo_Dodo

(Themenstarter)

Anmeldungsdatum:
31. Januar 2008

Beiträge: 212

Hm... scheint nicht zu funktionieren. Habe ich dabei etwas falsch gemacht?

fix-qdf < 00011017.pdf > 00011017-test.pdf 
fix-qdf: stdin: not a qdf file

Benno-007

Anmeldungsdatum:
28. August 2007

Beiträge: 29240

Scheint nicht für alle PDFs zu gehn - versuch es mal damit:

http://ubuntuforums.org/showthread.php?t=1678839

Beitrag 4.

Mojo_Dodo

(Themenstarter)

Anmeldungsdatum:
31. Januar 2008

Beiträge: 212

Benno-007 schrieb:

Scheint nicht für alle PDFs zu gehn - versuch es mal damit:

http://ubuntuforums.org/showthread.php?t=1678839

Beitrag 4.

Hab ich schon versucht, aber wie gesagt, da bekomme ich leider nur die Meldung "PDFTK retruns an error"

chris-hac

Anmeldungsdatum:
25. Juni 2010

Beiträge: Zähle...

Gimp hat bei mir geholfen , ich konnte die PDF, welche von qpdf als nicht lesbar identifiziert wurde, in GIMP importieren und von dort aus weiter verarbeiten.

Mojo_Dodo

(Themenstarter)

Anmeldungsdatum:
31. Januar 2008

Beiträge: 212

chris-hac schrieb:

Gimp hat bei mir geholfen , ich konnte die PDF, welche von qpdf als nicht lesbar identifiziert wurde, in GIMP importieren und von dort aus weiter verarbeiten.

Hi, danke für die Rückmeldung! Ich find meine Datei von damals gerade leider nicht mehr (ist ja auch schon über drei Jahre her ☺ ). Die Idee mit Gimp ist gut. Was meinst du mit "weiterverarbeiten"? Wenn ich pdfs mit Gimp geöffnet und dann als pdf wieder gespeichert hatte war das danach immer eine reine Grafik (d.h. man konnte z.B. keine Schrift mehr markieren und kopieren), aber das wäre für mein gescanntes Buch erst mal egal.

chris-hac

Anmeldungsdatum:
25. Juni 2010

Beiträge: 45

Du musst beim exportieren aus GIMP eingach nur das richtige Format (PDF) auswählen, ODER noch einfacher das File auf den PDF Drucker drucken dann wird auf jeden fall eine Standard-konforme PDF erzeugt und kann dann ihrer bestimmung entsprechend gehändelt werden.

XM-Franz

Supporter
Avatar von XM-Franz

Anmeldungsdatum:
15. Juni 2010

Beiträge: 3439

Mojo Dodo schrieb:

... und dann als pdf wieder gespeichert hatte war das danach immer eine reine Grafik (d.h. man konnte z.B. keine Schrift mehr markieren und kopieren), aber das wäre für mein gescanntes Buch erst mal egal.

Lies bitte die Wikiseite "Texterkennung". 👍

linux_joy

Anmeldungsdatum:
6. Februar 2008

Beiträge: 636

Hallo,

da ich ein ähnliches Problem wie der Themenstarter Mojo_Dodo hatte, habe ich das Thema der Einfachheit halber wieder ausgegraben, um Euch meine Lösung zu präsentieren. Denn die hier in den bisherigen Beiträgen sowie in diesem Thema präsentierten Lösungen waren leider für mich alle nicht zielführend, so dass ich mich dann via Internet-Suchmaschine nach alternativen Lösungsmöglichkeiten umgesehen habe und auch viele einschlägige Treffer verbuchen konnte – auf die eigentliche Lösung bin ich jedoch erst gekommen, als ich nach langer Suche einen eigenen Einfall zu einer der angebotenen Lösungen bekam.

Denn meiner eingescannte PDF-Datei Image006.pdf fehlt, wie sich im Laufe meiner Recherche und der Reparaturversuche herausgestellt hat, anscheinend der "startxref"-Abschnitt, und der "xref"-Abschnitt ist kaputt. Dies zumindest gibt (im Terminal und im selben Arbeitsverzeichnis wie die beschädigte PDF-Datei) der mutool-Befehl zum Reparieren aus (zunächst kommt allerdings die Installation des benötigten Paketes mupdf-tools; → MuPDF (Abschnitt „Weitere-Werkzeuge“)):

1
2
sudo apt-get install mupdf-tools
mutool clean Image006.pdf

Ausgabe:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
error: cannot find startxref
warning: trying to repair broken xref
warning: line feed missing after stream begin marker (6 0 R)
warning: line feed missing after stream begin marker (5 0 R)
warning: line feed missing after stream begin marker (12 0 R)
warning: line feed missing after stream begin marker (11 0 R)
warning: line feed missing after stream begin marker (18 0 R)
warning: line feed missing after stream begin marker (17 0 R)
warning: line feed missing after stream begin marker (24 0 R)
warning: line feed missing after stream begin marker (23 0 R)
warning: line feed missing after stream begin marker (30 0 R)
warning: line feed missing after stream begin marker (29 0 R)
warning: line feed missing after stream begin marker (36 0 R)
warning: line feed missing after stream begin marker (35 0 R)
warning: line feed missing after stream begin marker (42 0 R)
warning: line feed missing after stream begin marker (41 0 R)
warning: line feed missing after stream begin marker (48 0 R)
warning: line feed missing after stream begin marker (47 0 R)
Speicherzugriffsfehler

Auf diesen Lösungsversuch (sowie übrigens auch auf einige andere sinnvolle) bin ich übrigens durch diese I-Seite 🇩🇪 gekommen.

Schlussendlich bestand meine Lösung jedoch nicht darin, mein PDF versuchen zu reparieren (was mir ja auch nicht gelang), sondern darin, dessen Inhalte (also in meinem Fall lediglich PNG-Bilder) zu extrahieren und sie danach (wieder) zu einer neuen PDF-Datei zusammenzufügen!

Dass man zum Extrahieren auch einfach den mutool-Befehl verwenden kann, darauf musste ich (so wie bereits erwähnt) allerdings erst selber kommen, denn in keiner meiner Internet-Fundstellen wurde darauf explizit hingewiesen:

1
mutool extract Image006.pdf

Ausgabe:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
error: cannot find startxref
warning: trying to repair broken xref
warning: line feed missing after stream begin marker (6 0 R)
warning: line feed missing after stream begin marker (5 0 R)
warning: line feed missing after stream begin marker (12 0 R)
warning: line feed missing after stream begin marker (11 0 R)
warning: line feed missing after stream begin marker (18 0 R)
warning: line feed missing after stream begin marker (17 0 R)
warning: line feed missing after stream begin marker (24 0 R)
warning: line feed missing after stream begin marker (23 0 R)
warning: line feed missing after stream begin marker (30 0 R)
warning: line feed missing after stream begin marker (29 0 R)
warning: line feed missing after stream begin marker (36 0 R)
warning: line feed missing after stream begin marker (35 0 R)
warning: line feed missing after stream begin marker (42 0 R)
warning: line feed missing after stream begin marker (41 0 R)
warning: line feed missing after stream begin marker (48 0 R)
warning: line feed missing after stream begin marker (47 0 R)
extracting image img-0005.png
extracting image img-0011.png
extracting image img-0017.png
extracting image img-0023.png
extracting image img-0029.png
extracting image img-0035.png
extracting image img-0041.png
extracting image img-0047.png

Die Bilder landeten übrigens im selben Verzeichnis wie die beschädigte PDF-Datei. Wie bereits gesagt, wurden die extrahierten Bilder danach (mittels convert aus ImageMagick (Abschnitt „convert“)) zu einer neuen PDF-Datei zusammengefügt:

1
convert *.png Fertig.pdf

Der Vollständigkeit halber möchte ich nachfolgend noch weitere I-net-Quellen erwähnen, wovon ich allerdings nur die Lösungsvorschläge der ersten fast vollständig probiert habe und von der zweiten nur origami:

Weitere mögliche alternative PDF-Toolos zum umwandeln und extrahieren:

Zum Bilder-zusammenfügen empfehle ich die folgenden Themen:

Antworten |