staging.inyokaproject.org

xsane und tesseract-ocr

Status: Ungelöst | Ubuntu-Version: Ubuntu GNOME 20.04 (Focal Fossa)
Antworten |

suharoo

Anmeldungsdatum:
21. September 2016

Beiträge: Zähle...

Hallo,

ich versuche anhand der Anleitung unter tesseract-ocr die Texterkennung unter xsane zu installieren. xsane selber läuft einwandfrei. Wie auf der Seite beschrieben habe ich zuerst folgende Paket installiert:

1
2
sudo apt-get install gocr cuneiform tesseract-ocr 
sudo apt-get install exactimage poppler-utils 

Danach habe ich noch das deutsche Sprachpaket installiert:

1
sudo apt-get install tesseract-ocr-deu

Zusätzlich habe ich das Skript https://wiki.ubuntuusers.de/_attachment/?target=tesseract-ocr%2Fxsane2tess4.sh welches auf die Seite verlinkt ist heruntergeladen. Mir wird jedoch folgender Fehler angezeigt, wenn ich im nächsten Schritt versuche eine Konfigurationsdatei zu erstellen.

1
2
/usr/local/bin/xsane2tess4.sh -l deu -c hocr
/usr/local/bin/xsane2tess4.sh: rad 96: $FILE_OUT: mehrdeutige Umlenkung

Rufe ich xsane auf und versuche dann, im Betrachter das Bild als txt oder pdf über den Button ABCDEF zu speichern, wird nur eine leere Datei mit 0 Byte angelegt. Ich habe leider keine Ahnung, was ich machen muss um den Fehler zu beheben und bin für jeden Tipp dankbar. Danke

Heinrich_Schwietering Team-Icon

Wikiteam
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11335

Hi!

Das Skript kann nicht alleine verwendet werden! Um es zu nutzen, musst du im Konfigurationsfenster von XSane den passenden Befehl eintragen, und dann den Scan mit der Einstellung TEXT abspeichern. Aus dem Artikel:

In "XSane → Einstellung → Konfiguration → Texterkennung" wird als OCR-Befehl "/usr/local/bin/xsane2tess4.sh" sowie weitere Optionen eingesetzt, als Option für die Eingabedatei "-i", für die Ausgabedatei "-o", alles andere bleibt frei.

In das Konfigurationsfenster trägst du also etwas wie /PFAD/ZU/xsane2tess4.sh -l deu -c hocr ein, um tesseract-ocr direkt nutzen zu können

Ich bin leider noch nicht dazu gekommen, den Artikel unter 20.04 zu testen, aber "theoretisch" sollte es auch unter Focal funktionieren.

so long
hank

Nachtrag: Habe es gerade unter 20.04 getestet, es funktioniert bei mir einwandfrei. -c hocr ist wahrscheinlich für dich nicht die richtige Wahl; wenn du nur Text haben möchtest,lässt du die Option -c einfach weg. Aber ganz wichtig:

Keine doppelten Leerzeichen in dem Aufruf verwenden! Ggf. löschst du damit dann alle versteckten Dateien in deinem Homeverzeichnis!

Wenn das Script startet, wird in /tmp eine Log-Datei xsane2tess4.log angelegt, die ggf. nützlich zur Fehlersuche ist.

Eionie

Anmeldungsdatum:
2. Juli 2008

Beiträge: Zähle...

Hallo suharoo, besteht Dein Problem noch? Hatte das eben auch. Sieh Dir mal die Logdatei /tmp/xsane2tess4.log an. Bei mir stand: Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/de_DE.UTF-8.traineddata In dem Verzeichnis gab es diese Datei aber nich, nur eine Deu.traineddata. Habe die dann mit root-Rechten auf den gewünschten Namen kopiert, jetzt macht XSane auch die OCR-Tesseract Umwandlung.

Antworten |