Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Nachdem jetzt die Erkennung von Umlauten vernünftig funktioniert, hier in Artikel zu OCRFeeder. Das Programm ist noch recht "frisch" und ausbaufähig, ich finde den Ansatz aber ziemlich genial; ich kenne unter Linux nichts vergleichbares, das einigermaßen "benutzerfreundlich" zu handhaben ist. Wenn noch jemand rausfindet, wie denn html-Daten in vernünftiger Größe (so dass sie in einen Standardbrowser passen) erstellt werden können: Immer her damit! Ansonsten die üblich Bitte um Beachtung, konstruktive Kritik, Anregungen Fragen etc pp. 😉 so long hank
|
march
Anmeldungsdatum: 12. Juni 2005
Beiträge: 17329
|
Du wolltest es so: 😉 Den wertenden Satz Leider ist die Dokumentation zum Programm noch "etwas" mangelhaft, daher wird hier recht ausführlich auf die Bedienung eingegangen... würde ich entfernen. Ebenso weitere Wertungen wie z.B. erschlagende ... (siehe aber Probleme) - hier würde ich eine anderes Konstrukt verwenden z.B: OCRFeeder kann - bis auf wenige Ausnahmen - alle gängigen Bildformate verarbeiten
Ansonsten ein guter Artikel. ☺
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! march schrieb: Du wolltest es so: 😉
Ja, gib's mir 😈 Hast ja recht; ich hatte wg. diverser Probleme mit dem Entwickler Kontakt aufgenommen, und er sagt selbst, dass das noch ein großes Manko ist. Er will eine Google-Group aufmachen,die sich darum kümmern soll... Das "erschlagend" kann ich ja flugs in umfangreich ändern; drückt eher meinen Respekt vor den unpaper-Möglichkeiten aus (das ist echt ziemlich beeindruckend, dafür sollte eigentlich auch ein Artikel her...); könnte auch versuchen, die angegebenen Optionen für unpaper noch mal genauer zu erklären. klar, mach ich so; das .tiff-Problem scheint auch anderweitig so noch nicht vorgekommen zu sein; der Entwickler hat es dann aber bestätigt. Im nächsten Release soll zumindestens ein Warnfenster aufpoppen, wenn das Format nicht verarbeitet werden kann. Ansonsten ein guter Artikel. ☺
Danke! so long hank
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Dann werd' ich hier auch mal zu Verschiebenmaßnahmen greifen, da ja keine weiteren Rückmeldungen erfolgt sind: OCRFeeder. Verlinkt bei Scanner, die OCR-Übersichtsseite kommt aber in Kürze. so long hank
|
usimonm
Anmeldungsdatum: 3. April 2017
Beiträge: Zähle...
|
Hi, Wow, seit 2010! ich hab den Artikel, unter 20.04 getestet und alles im Grafischen Frontend funktioniert wie beschrieben. In der Kommandozeile scheinen sich die Optionen geändert zu haben (--image statt --images). Bei mir läuft die Version "ocrfeeder-cli 0.8.2", Sollte aber lt https://packages.ubuntu.com/focal/ocrfeeder 0.8.1 sein. Wie kann das sein und wie könnte ich dadamit umgehen? Uwe
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Die Ocrfeeder-Pakete liegen in universe, da kann mensch sich nicht sicher sein, ob und was gewartet wird 😉 Auch für ocrfeeder selbst wird Version 0.8.2 ausgegeben; aber das ist nicht weiter schlimm, und erfordert keine weiteren Maßnahmen... Funktioniert es bei dir tatsächlich alles wie im Artikel beschrieben? Dann könntest du im Artikel ja das getestet 20.04 setzen. Die Änderung bei den Optionen könntest du anpassen; ggf. ist es auch nur ein Tippfehler... (die Manpage gibt die Option allerdings als --images oder -i aus.) so long hank
|
usimonm
Anmeldungsdatum: 3. April 2017
Beiträge: 23
|
Hi, Ja, die manpage scheint zu lügen, aber ich will mich da nicht für an die Entwickler wenden. Wenn ich die option "--images" verwende erhalte ich:
| ocrfeeder-cli: error: no such option: --images
|
ocrfeeder-cli sagt:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21 | ocrfeeder-cli --help
/usr/lib/python3/dist-packages/ocrfeeder/util/lib.py:24: PyGIWarning: Gtk was imported without specifying a version first. Use gi.require_version('Gtk', '3.0') before import to ensure that the right version gets loaded.
from gi.repository import Gtk
Usage: ocrfeeder-cli -i IMAGE1 [-i IMAGE2, ...] -o FILE
Options:
--version show program's version number and exit
-h, --help show this help message and exit
-i IMAGE1 [--image=IMAGE2, ...], --image=IMAGE1 [--image=IMAGE2, ...]
images to be recognized
-f HTML, ODT, TXT, PDF or SPDF (for a searchable PDF), --format=HTML, ODT, TXT, PDF or SPDF (for a searchable PDF)
format of the generated document
-o OUTPUT, --output=OUTPUT
the document to be generated
-e ENGINE, --engine=ENGINE
the OCR engine to be used. Options are:
-l LANGUAGE, --language=LANGUAGE
the language according to the ISO-639-1. For example
"pt" for Portuguese or "en" for English
--window-size=auto or an integer value
the segmentation algorithm window size
|
Da muss man jetzt für jedes Bild die Option neu setzen. Der Start von der Kommandozeile funktioniert auch anders als beschrieben. Bei genauerem hinsehen musste ich feststellen, dass die Konfiguration anscheinend einfacher geworden ist. Die habe ich nur auf "tesseract-ocr" getestet. Muss halt vorher installiert sein. Ich musste nicht alles wie im Artikel beschrieben durcharbeiten, aber dem Grunde nach funktioniert sie gut unter focal und gibt entscheidende Hinweise (PDF geht nicht). Ich könnte ein paar Anmerkungen machen, möchte aber nicht alles umbügeln. Uwe
|