staging.inyokaproject.org

pdfocr

Status: Gelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |
Dieses Thema ist die Diskussion des Artikels pdfocr.

Heinrich_Schwietering Team-Icon

Wikiteam
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

Angestoßen vom letzten UWR ein kleiner Artikel zu pdfocr; momentan wohl die komfortabelste Methode, unter Linux durchsuchbare PDFs zu produzieren. Das PPA liefert außerdem gleich noch die aktuellsten Versionen von Cuneiform-Linux und ExactImage, sehr praktisch... 😉

Anmerkungen, Ergänzungen, konstruktive Kritik wie immer erbeten, auch wenn es vielleicht im Lynx-Rausch gerade etwas untergehen könnte...

so long
hank

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

Kein Diskussionsbedarf?

so long
hank

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

Naja, dann... Verschoben: pdfocr 😉

so long
hank

hintze

Avatar von hintze

Anmeldungsdatum:
14. Juni 2007

Beiträge: 46

wenns dich beruhigt: hab den artikel ueber google gefunden gerne benutzt =) alles prima soweit.. (nur eine kleine usermeinung ☺ )

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

hintze schrieb:

wenns dich beruhigt: hab den artikel ueber google gefunden gerne benutzt =) alles prima soweit.. (nur eine kleine usermeinung ☺ )

Google? Na, ist ja auch spannend. Ich führ' hier hin und wieder mal Monologe zu "randständigen" Artikeln, freu mich also über jede Rückmeldung 😉

so long
hank

hypn0t04d

Avatar von hypn0t04d

Anmeldungsdatum:
13. August 2007

Beiträge: 158

Hallo Heinrich,

wollte mal ein kurzes Feedback geben, dass ich deine Artikel zu OCR, Scannen, etc. immer mit viel Interesse verfolge. Ich selbst freue mich auf den Tag, wo es wirklich eine einfache, "halbautomatische" Lösung gibt, wie ich unter Linux Dokumente einscannen, verwalten und durchsuchen lassen kann. (Außer sowas wie der archivista-box).

Ich stelle mir etwas vor, wie eine Kombination aus: http://gpapers.org/, http://icculus.org/referencer/ und gscan2pdf + ein funktionierendes OCR-System

Im Moment benutze ich Mendeley und Zotero, die zumindest ok arbeiten - von Zotero soll es ja demnächst auch eine Standalone-Version geben... wenn man da jetzt neben der normalen pdf2text-Analyse auch sowas wie pdfocr bei gescannten Dokumenten davorschalten könnte, wäre ich schon happy.

pdfocr werde ich demnächst austesten!

Kennst du eigentlich ein Programm, das auch Frakturschrift auslesen kann?

Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1

Vielen Dank für die hochwertige Arbeit, die du dir mit dem Wiki machst - das ist ein echter Mehrwert, gerade auch für Linux im Bereich Uni und Bildung! Und überhaupt ist es gerade die verfügbare Nischensoftware, die - wenn sie gut dokumentiert ist - Linux interessant macht!

So long, hypn0t04d

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

hypn0t04d schrieb:

wollte mal ein kurzes Feedback geben, dass ich deine Artikel zu OCR, Scannen, etc. immer mit viel Interesse verfolge. Ich selbst freue mich auf den Tag, wo es wirklich eine einfache, "halbautomatische" Lösung gibt, wie ich unter Linux Dokumente einscannen, verwalten und durchsuchen lassen kann. (Außer sowas wie der archivista-box).

Tja, müssen wir wohl leider auf ocropus waren, das wird aber wohl noch 2-3 Jahre dauern 😢

Ich stelle mir etwas vor, wie eine Kombination aus: http://gpapers.org/, http://icculus.org/referencer/ und gscan2pdf + ein funktionierendes OCR-System

Kenne ich beide noch nicht; sollte ich mir mal genauer anschauen! Cuneiform-Linux ist für meine Begriffe aber schon (fast) ein funktionierenden OCR-System...

Im Moment benutze ich Mendeley und Zotero, die zumindest ok arbeiten - von Zotero soll es ja demnächst auch eine Standalone-Version geben... wenn man da jetzt neben der normalen pdf2text-Analyse auch sowas wie pdfocr bei gescannten Dokumenten davorschalten könnte, wäre ich schon happy.

Die Artikel zu Mendeley und Zotero kennst du?

pdfocr werde ich demnächst austesten!

pdfocr sollte für reine Textvorlagen schon ganz gut Dienste leisten. Literaturverwaltung ist bei mir noch nicht so in den Vordergrund gerückt; wollte eher mal DjVu aufarbeiten (gibts auch Texterkennung zu...)

Kennst du eigentlich ein Programm, das auch Frakturschrift auslesen kann?

tesseract-ocr mit dem Paket tesseract-deu-f, auch in vietOCR mit GUI nutzbar, zumindest für deutschen Text, sollte aber auch einigermaßen für andere Sprachen funktionieren. (Sonst: Antrainieren 😉

Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1

Leider gar nicht, fänd' ich auch interessant...

Vielen Dank für die hochwertige Arbeit, die du dir mit dem Wiki machst - das ist ein echter Mehrwert, gerade auch für Linux im Bereich Uni und Bildung! Und überhaupt ist es gerade die verfügbare Nischensoftware, die - wenn sie gut dokumentiert ist - Linux interessant macht!

Danke für die Blumen! ☺ Bin aber anscheinend wirklich etwas "Einzelkämpfer" hier, da freut mich doch das Feedback um so mehr!

so long
hank

EDIT: Theoretisch sollte man XSane auch dazu bringen können, gleich durchsuchbare PDF-Dateien auszuspucken, wenn man das xsane2cunei-Skript noch etwas aufbohren würde; allerdings wüsste ich momentan nicht so genau, wie es für mehrseitige Dokumente gehen könnte (und das wäre ja gerade interessant... - vielleicht setze ich mich noch mal daran)

loh.tar

Anmeldungsdatum:
1. Juli 2005

Beiträge: Zähle...

Hallo Heinrich,

habe Deinen Artikel überflogen und mir ein Paar Korrekturen erlaubt. Ich stutze außerdem über die Einleitung:

...aus gescannten PDF-Vorlagen durchsuchbare Dokumente zu machen.

So wie ich den Artikel verstehe werden da keine gescannten Seiten konvertiert sondern pdf-Dateien "verwurstelt". Was mich vermuten lässt dass der Satz bedeuten soll, "werden pdf-Dateien mittels eines OCR Programm konvertiert".

Gruß, Lothar

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

H!

loh.tar schrieb:

...aus gescannten PDF-Vorlagen durchsuchbare Dokumente zu machen.

So wie ich den Artikel verstehe werden da keine gescannten Seiten konvertiert sondern pdf-Dateien "verwurstelt". Was mich vermuten lässt dass der Satz bedeuten soll, "werden pdf-Dateien mittels eines OCR Programm konvertiert".

Nein, es soll zum Ausdruck bringen, dass PDF-Dateien, die z.b von OpenOffice erstellt wurden, bereits "von sich aus" durchsuchbar sind, und nicht erst "ocr-isiert" werden müssen, sondern nur solche, die eben z.B. per Scan erstellt wurden (oder aus irgendwelchen anderen Gründen nicht "durchsuchbar" sind). Ist vielleicht missverständlich, oder auch logisch...

so long
hank

loh.tar

Anmeldungsdatum:
1. Juli 2005

Beiträge: 674

Dann gehts also darum irgend ein Blatt einzuscannen, dieses zunächst als pdf-Datei zu speichern und dann die Datei mit pdfocr so zu verändern dass ich in einem pdf-viewer die Suchfunktion nutzen kann?

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

Im Prinzip ja - es geht eigentlich darum, z.B. für das "papierlose" Büro alle Dokumente, Briefe etc. als PDF (wg. Weitergabe etc pp.) einzuscannen/ vorliegen zu haben, die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können.

so long
hank

loh.tar

Anmeldungsdatum:
1. Juli 2005

Beiträge: 674

die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können.

ahso, für Beagle/Strigi? Da wärs natürlich wünschenswert die bauen ein entsprechendes Modul ein das Texte aus Bildern indiziert.

hks

Anmeldungsdatum:
24. November 2007

Beiträge: 18

Hi,

Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1

So ein Scannerstift würde mich auch interessieren.

Was ich gefunden habe:

Handscanner easypix, ein 25,5 x 2,9 x 3,1cm Stab, speichert jpegs auf mikro-sd, usb 2.0, Treiberfrei für win, mac und offensichtlich auch linux (per cardreader oder usb die jpegs auf die Festplatte schaufeln) - für unter 70,- EUR. Passt zwar kaum in die Hosentasche, aber in die Aktentasche. OCR muss dann am PC gemacht werden.

max. DinA4, 300x300 oder 600x600 dpi, Hohe Auflösung S/W: 6 Sekunden, 2x AA-Batterien, angeblich 200 Scans möglich,...

http://www.easypix.eu/

http://www.easypix.info/download/pdf/easyscan.pdf

http://www.google.de/products?q=Easypix+Easy-scan&hl=de&scoring=p

hat jemand schon Erfahrung?

falls ich das Ding kaufe, werde ich Bericht erstatten.

Hans

Heinrich_Schwietering Team-Icon

Wikiteam
(Themenstarter)
Avatar von Heinrich_Schwietering

Anmeldungsdatum:
12. November 2005

Beiträge: 11288

Hi!

loh.tar schrieb:

die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können.

ahso, für Beagle/Strigi? Da wärs natürlich wünschenswert die bauen ein entsprechendes Modul ein das Texte aus Bildern indiziert.

Das wär' natürlich am einfachsten, aber ich glaube, das ist kaum praktikabel...

so long
hank

TheThatcher

Anmeldungsdatum:
1. April 2011

Beiträge: 104

die Quellen sind offline, allerdings traue ich mir als Anfänger eine Bearbeitung nicht zu...

Antworten |