Heinrich_Schwietering
Wikiteam
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Angestoßen vom letzten UWR ein kleiner Artikel zu pdfocr; momentan wohl die komfortabelste Methode, unter Linux durchsuchbare PDFs zu produzieren. Das PPA liefert außerdem gleich noch die aktuellsten Versionen von Cuneiform-Linux und ExactImage, sehr praktisch... 😉 Anmerkungen, Ergänzungen, konstruktive Kritik wie immer erbeten, auch wenn es vielleicht im Lynx-Rausch gerade etwas untergehen könnte... so long hank
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Kein Diskussionsbedarf? so long hank
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Naja, dann... Verschoben: pdfocr 😉 so long hank
|
hintze
Anmeldungsdatum: 14. Juni 2007
Beiträge: 46
|
wenns dich beruhigt: hab den artikel ueber google gefunden gerne benutzt =) alles prima soweit.. (nur eine kleine usermeinung ☺ )
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! hintze schrieb: wenns dich beruhigt: hab den artikel ueber google gefunden gerne benutzt =) alles prima soweit.. (nur eine kleine usermeinung ☺ )
Google? Na, ist ja auch spannend. Ich führ' hier hin und wieder mal Monologe zu "randständigen" Artikeln, freu mich also über jede Rückmeldung 😉 so long hank
|
hypn0t04d
Anmeldungsdatum: 13. August 2007
Beiträge: 158
|
Hallo Heinrich, wollte mal ein kurzes Feedback geben, dass ich deine Artikel zu OCR, Scannen, etc. immer mit viel Interesse verfolge. Ich selbst freue mich auf den Tag, wo es wirklich eine einfache, "halbautomatische" Lösung gibt, wie ich unter Linux Dokumente einscannen, verwalten und durchsuchen lassen kann. (Außer sowas wie der archivista-box). Ich stelle mir etwas vor, wie eine Kombination aus:
http://gpapers.org/, http://icculus.org/referencer/ und gscan2pdf + ein funktionierendes OCR-System Im Moment benutze ich Mendeley und Zotero, die zumindest ok arbeiten - von Zotero soll es ja demnächst auch eine Standalone-Version geben... wenn man da jetzt neben der normalen pdf2text-Analyse auch sowas wie pdfocr bei gescannten Dokumenten davorschalten könnte, wäre ich schon happy. pdfocr werde ich demnächst austesten! Kennst du eigentlich ein Programm, das auch Frakturschrift auslesen kann? Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1 Vielen Dank für die hochwertige Arbeit, die du dir mit dem Wiki machst - das ist ein echter Mehrwert, gerade auch für Linux im Bereich Uni und Bildung! Und überhaupt ist es gerade die verfügbare Nischensoftware, die - wenn sie gut dokumentiert ist - Linux interessant macht! So long,
hypn0t04d
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! hypn0t04d schrieb: wollte mal ein kurzes Feedback geben, dass ich deine Artikel zu OCR, Scannen, etc. immer mit viel Interesse verfolge. Ich selbst freue mich auf den Tag, wo es wirklich eine einfache, "halbautomatische" Lösung gibt, wie ich unter Linux Dokumente einscannen, verwalten und durchsuchen lassen kann. (Außer sowas wie der archivista-box).
Tja, müssen wir wohl leider auf ocropus waren, das wird aber wohl noch 2-3 Jahre dauern 😢 Ich stelle mir etwas vor, wie eine Kombination aus:
http://gpapers.org/, http://icculus.org/referencer/ und gscan2pdf + ein funktionierendes OCR-System
Kenne ich beide noch nicht; sollte ich mir mal genauer anschauen! Cuneiform-Linux ist für meine Begriffe aber schon (fast) ein funktionierenden OCR-System... Im Moment benutze ich Mendeley und Zotero, die zumindest ok arbeiten - von Zotero soll es ja demnächst auch eine Standalone-Version geben... wenn man da jetzt neben der normalen pdf2text-Analyse auch sowas wie pdfocr bei gescannten Dokumenten davorschalten könnte, wäre ich schon happy.
Die Artikel zu Mendeley und Zotero kennst du? pdfocr werde ich demnächst austesten!
pdfocr sollte für reine Textvorlagen schon ganz gut Dienste leisten. Literaturverwaltung ist bei mir noch nicht so in den Vordergrund gerückt; wollte eher mal DjVu aufarbeiten (gibts auch Texterkennung zu...) Kennst du eigentlich ein Programm, das auch Frakturschrift auslesen kann?
tesseract-ocr mit dem Paket tesseract-deu-f, auch in vietOCR mit GUI nutzbar, zumindest für deutschen Text, sollte aber auch einigermaßen für andere Sprachen funktionieren. (Sonst: Antrainieren 😉 Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1
Leider gar nicht, fänd' ich auch interessant... Vielen Dank für die hochwertige Arbeit, die du dir mit dem Wiki machst - das ist ein echter Mehrwert, gerade auch für Linux im Bereich Uni und Bildung! Und überhaupt ist es gerade die verfügbare Nischensoftware, die - wenn sie gut dokumentiert ist - Linux interessant macht!
Danke für die Blumen! ☺ Bin aber anscheinend wirklich etwas "Einzelkämpfer" hier, da freut mich doch das Feedback um so mehr! so long hank EDIT: Theoretisch sollte man XSane auch dazu bringen können, gleich durchsuchbare PDF-Dateien auszuspucken, wenn man das xsane2cunei-Skript noch etwas aufbohren würde; allerdings wüsste ich momentan nicht so genau, wie es für mehrseitige Dokumente gehen könnte (und das wäre ja gerade interessant... - vielleicht setze ich mich noch mal daran)
|
loh.tar
Anmeldungsdatum: 1. Juli 2005
Beiträge: Zähle...
|
Hallo Heinrich, habe Deinen Artikel überflogen und mir ein Paar Korrekturen erlaubt. Ich stutze außerdem über die Einleitung:
...aus gescannten PDF-Vorlagen durchsuchbare Dokumente zu machen.
So wie ich den Artikel verstehe werden da keine gescannten Seiten konvertiert sondern pdf-Dateien "verwurstelt". Was mich vermuten lässt dass der Satz bedeuten soll, "werden pdf-Dateien mittels eines OCR Programm konvertiert". Gruß, Lothar
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
H! loh.tar schrieb:
...aus gescannten PDF-Vorlagen durchsuchbare Dokumente zu machen.
So wie ich den Artikel verstehe werden da keine gescannten Seiten konvertiert sondern pdf-Dateien "verwurstelt". Was mich vermuten lässt dass der Satz bedeuten soll, "werden pdf-Dateien mittels eines OCR Programm konvertiert".
Nein, es soll zum Ausdruck bringen, dass PDF-Dateien, die z.b von OpenOffice erstellt wurden, bereits "von sich aus" durchsuchbar sind, und nicht erst "ocr-isiert" werden müssen, sondern nur solche, die eben z.B. per Scan erstellt wurden (oder aus irgendwelchen anderen Gründen nicht "durchsuchbar" sind). Ist vielleicht missverständlich, oder auch logisch... so long hank
|
loh.tar
Anmeldungsdatum: 1. Juli 2005
Beiträge: 674
|
Dann gehts also darum irgend ein Blatt einzuscannen, dieses zunächst als pdf-Datei zu speichern und dann die Datei mit pdfocr so zu verändern dass ich in einem pdf-viewer die Suchfunktion nutzen kann?
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! Im Prinzip ja - es geht eigentlich darum, z.B. für das "papierlose" Büro alle Dokumente, Briefe etc. als PDF (wg. Weitergabe etc pp.) einzuscannen/ vorliegen zu haben, die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können. so long hank
|
loh.tar
Anmeldungsdatum: 1. Juli 2005
Beiträge: 674
|
die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können.
ahso, für Beagle/Strigi? Da wärs natürlich wünschenswert die bauen ein entsprechendes Modul ein das Texte aus Bildern indiziert.
|
hks
Anmeldungsdatum: 24. November 2007
Beiträge: 18
|
Hi,
Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1
So ein Scannerstift würde mich auch interessieren. Was ich gefunden habe: Handscanner easypix, ein 25,5 x 2,9 x 3,1cm Stab, speichert jpegs auf mikro-sd, usb 2.0, Treiberfrei für win, mac und offensichtlich auch linux (per cardreader oder usb die jpegs auf die Festplatte schaufeln) - für unter 70,- EUR. Passt zwar kaum in die Hosentasche, aber in die Aktentasche. OCR muss dann am PC gemacht werden. max. DinA4, 300x300 oder 600x600 dpi, Hohe Auflösung S/W: 6 Sekunden, 2x AA-Batterien, angeblich 200 Scans möglich,... http://www.easypix.eu/ http://www.easypix.info/download/pdf/easyscan.pdf http://www.google.de/products?q=Easypix+Easy-scan&hl=de&scoring=p hat jemand schon Erfahrung? falls ich das Ding kaufe, werde ich Bericht erstatten. Hans
|
Heinrich_Schwietering
Wikiteam
(Themenstarter)
Anmeldungsdatum: 12. November 2005
Beiträge: 11288
|
Hi! loh.tar schrieb: die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können.
ahso, für Beagle/Strigi? Da wärs natürlich wünschenswert die bauen ein entsprechendes Modul ein das Texte aus Bildern indiziert.
Das wär' natürlich am einfachsten, aber ich glaube, das ist kaum praktikabel... so long hank
|
TheThatcher
Anmeldungsdatum: 1. April 2011
Beiträge: 104
|
die Quellen sind offline, allerdings traue ich mir als Anfänger eine Bearbeitung nicht zu...
|