pdfocr › Rund ums Wiki › Aktiv werden › Forum › staging.inyokaproject.org

pdfocr

« Vorherige12 Nächste »

Status: Gelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |

Dieses Thema ist die Diskussion des Artikels pdfocr.

Heinrich_Schwietering Wikiteam Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 29. April 2010 17:51 (zuletzt bearbeitet: 29. April 2010 17:57) Hi! Angestoßen vom letzten UWR ein kleiner Artikel zu pdfocr; momentan wohl die komfortabelste Methode, unter Linux durchsuchbare PDFs zu produzieren. Das PPA liefert außerdem gleich noch die aktuellsten Versionen von Cuneiform-Linux und ExactImage, sehr praktisch... 😉 Anmerkungen, Ergänzungen, konstruktive Kritik wie immer erbeten, auch wenn es vielleicht im Lynx-Rausch gerade etwas untergehen könnte... so long hank
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 3. Mai 2010 23:10 Hi! Kein Diskussionsbedarf? so long hank
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 6. Mai 2010 19:18 Hi! Naja, dann... Verschoben: pdfocr 😉 so long hank
hintze Anmeldungsdatum: 14. Juni 2007 Beiträge: 46	Zitieren 6. Mai 2010 21:01 wenns dich beruhigt: hab den artikel ueber google gefunden gerne benutzt =) alles prima soweit.. (nur eine kleine usermeinung ☺ )
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 6. Mai 2010 21:09 Hi! hintze schrieb: wenns dich beruhigt: hab den artikel ueber google gefunden gerne benutzt =) alles prima soweit.. (nur eine kleine usermeinung ☺ ) Google? Na, ist ja auch spannend. Ich führ' hier hin und wieder mal Monologe zu "randständigen" Artikeln, freu mich also über jede Rückmeldung 😉 so long hank
hypn0t04d Anmeldungsdatum: 13. August 2007 Beiträge: 158	Zitieren 11. Mai 2010 10:46 Hallo Heinrich, wollte mal ein kurzes Feedback geben, dass ich deine Artikel zu OCR, Scannen, etc. immer mit viel Interesse verfolge. Ich selbst freue mich auf den Tag, wo es wirklich eine einfache, "halbautomatische" Lösung gibt, wie ich unter Linux Dokumente einscannen, verwalten und durchsuchen lassen kann. (Außer sowas wie der archivista-box). Ich stelle mir etwas vor, wie eine Kombination aus: http://gpapers.org/, http://icculus.org/referencer/ und gscan2pdf + ein funktionierendes OCR-System Im Moment benutze ich Mendeley und Zotero, die zumindest ok arbeiten - von Zotero soll es ja demnächst auch eine Standalone-Version geben... wenn man da jetzt neben der normalen pdf2text-Analyse auch sowas wie pdfocr bei gescannten Dokumenten davorschalten könnte, wäre ich schon happy. pdfocr werde ich demnächst austesten! Kennst du eigentlich ein Programm, das auch Frakturschrift auslesen kann? Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1 Vielen Dank für die hochwertige Arbeit, die du dir mit dem Wiki machst - das ist ein echter Mehrwert, gerade auch für Linux im Bereich Uni und Bildung! Und überhaupt ist es gerade die verfügbare Nischensoftware, die - wenn sie gut dokumentiert ist - Linux interessant macht! So long, hypn0t04d
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 11. Mai 2010 15:20 (zuletzt bearbeitet: 11. Mai 2010 18:10) Hi! hypn0t04d schrieb: wollte mal ein kurzes Feedback geben, dass ich deine Artikel zu OCR, Scannen, etc. immer mit viel Interesse verfolge. Ich selbst freue mich auf den Tag, wo es wirklich eine einfache, "halbautomatische" Lösung gibt, wie ich unter Linux Dokumente einscannen, verwalten und durchsuchen lassen kann. (Außer sowas wie der archivista-box). Tja, müssen wir wohl leider auf ocropus waren, das wird aber wohl noch 2-3 Jahre dauern 😢 Ich stelle mir etwas vor, wie eine Kombination aus: http://gpapers.org/, http://icculus.org/referencer/ und gscan2pdf + ein funktionierendes OCR-System Kenne ich beide noch nicht; sollte ich mir mal genauer anschauen! Cuneiform-Linux ist für meine Begriffe aber schon (fast) ein funktionierenden OCR-System... Im Moment benutze ich Mendeley und Zotero, die zumindest ok arbeiten - von Zotero soll es ja demnächst auch eine Standalone-Version geben... wenn man da jetzt neben der normalen pdf2text-Analyse auch sowas wie pdfocr bei gescannten Dokumenten davorschalten könnte, wäre ich schon happy. Die Artikel zu Mendeley und Zotero kennst du? pdfocr werde ich demnächst austesten! pdfocr sollte für reine Textvorlagen schon ganz gut Dienste leisten. Literaturverwaltung ist bei mir noch nicht so in den Vordergrund gerückt; wollte eher mal DjVu aufarbeiten (gibts auch Texterkennung zu...) Kennst du eigentlich ein Programm, das auch Frakturschrift auslesen kann? tesseract-ocr mit dem Paket tesseract-deu-f, auch in vietOCR mit GUI nutzbar, zumindest für deutschen Text, sollte aber auch einigermaßen für andere Sprachen funktionieren. (Sonst: Antrainieren 😉 Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1 Leider gar nicht, fänd' ich auch interessant... Vielen Dank für die hochwertige Arbeit, die du dir mit dem Wiki machst - das ist ein echter Mehrwert, gerade auch für Linux im Bereich Uni und Bildung! Und überhaupt ist es gerade die verfügbare Nischensoftware, die - wenn sie gut dokumentiert ist - Linux interessant macht! Danke für die Blumen! ☺ Bin aber anscheinend wirklich etwas "Einzelkämpfer" hier, da freut mich doch das Feedback um so mehr! so long hank EDIT: Theoretisch sollte man XSane auch dazu bringen können, gleich durchsuchbare PDF-Dateien auszuspucken, wenn man das xsane2cunei-Skript noch etwas aufbohren würde; allerdings wüsste ich momentan nicht so genau, wie es für mehrseitige Dokumente gehen könnte (und das wäre ja gerade interessant... - vielleicht setze ich mich noch mal daran)
loh.tar Anmeldungsdatum: 1. Juli 2005 Beiträge: Zähle...	Zitieren 2. Juni 2010 08:29 Hallo Heinrich, habe Deinen Artikel überflogen und mir ein Paar Korrekturen erlaubt. Ich stutze außerdem über die Einleitung: ...aus gescannten PDF-Vorlagen durchsuchbare Dokumente zu machen. So wie ich den Artikel verstehe werden da keine gescannten Seiten konvertiert sondern pdf-Dateien "verwurstelt". Was mich vermuten lässt dass der Satz bedeuten soll, "werden pdf-Dateien mittels eines OCR Programm konvertiert". Gruß, Lothar
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 2. Juni 2010 08:50 H! loh.tar schrieb: ...aus gescannten PDF-Vorlagen durchsuchbare Dokumente zu machen. So wie ich den Artikel verstehe werden da keine gescannten Seiten konvertiert sondern pdf-Dateien "verwurstelt". Was mich vermuten lässt dass der Satz bedeuten soll, "werden pdf-Dateien mittels eines OCR Programm konvertiert". Nein, es soll zum Ausdruck bringen, dass PDF-Dateien, die z.b von OpenOffice erstellt wurden, bereits "von sich aus" durchsuchbar sind, und nicht erst "ocr-isiert" werden müssen, sondern nur solche, die eben z.B. per Scan erstellt wurden (oder aus irgendwelchen anderen Gründen nicht "durchsuchbar" sind). Ist vielleicht missverständlich, oder auch logisch... so long hank
loh.tar Anmeldungsdatum: 1. Juli 2005 Beiträge: 674	Zitieren 2. Juni 2010 10:51 Dann gehts also darum irgend ein Blatt einzuscannen, dieses zunächst als pdf-Datei zu speichern und dann die Datei mit pdfocr so zu verändern dass ich in einem pdf-viewer die Suchfunktion nutzen kann?
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 2. Juni 2010 15:40 Hi! Im Prinzip ja - es geht eigentlich darum, z.B. für das "papierlose" Büro alle Dokumente, Briefe etc. als PDF (wg. Weitergabe etc pp.) einzuscannen/ vorliegen zu haben, die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können. so long hank
loh.tar Anmeldungsdatum: 1. Juli 2005 Beiträge: 674	Zitieren 2. Juni 2010 17:34 die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können. ahso, für Beagle/Strigi? Da wärs natürlich wünschenswert die bauen ein entsprechendes Modul ein das Texte aus Bildern indiziert.
hks Anmeldungsdatum: 24. November 2007 Beiträge: 18	Zitieren 2. Juni 2010 17:39 Hi, Und weißt du zufällig, ob und wie gut Scanstifte unter Linux funktionieren? http://www.amazon.de/IRIS-IRISPen-Executive-PC-MAC/dp/B00169922Q/ref=sr_1_1?ie=UTF8&s=software&qid=1273564873&sr=8-1 So ein Scannerstift würde mich auch interessieren. Was ich gefunden habe: Handscanner easypix, ein 25,5 x 2,9 x 3,1cm Stab, speichert jpegs auf mikro-sd, usb 2.0, Treiberfrei für win, mac und offensichtlich auch linux (per cardreader oder usb die jpegs auf die Festplatte schaufeln) - für unter 70,- EUR. Passt zwar kaum in die Hosentasche, aber in die Aktentasche. OCR muss dann am PC gemacht werden. max. DinA4, 300x300 oder 600x600 dpi, Hohe Auflösung S/W: 6 Sekunden, 2x AA-Batterien, angeblich 200 Scans möglich,... http://www.easypix.eu/ http://www.easypix.info/download/pdf/easyscan.pdf http://www.google.de/products?q=Easypix+Easy-scan&hl=de&scoring=p hat jemand schon Erfahrung? falls ich das Ding kaufe, werde ich Bericht erstatten. Hans
Heinrich_Schwietering Wikiteam (Themenstarter) Anmeldungsdatum: 12. November 2005 Beiträge: 11288	Zitieren 2. Juni 2010 20:02 Hi! loh.tar schrieb: die aber dann auch durchsuchbar zu machen, um z.B. einen Index erstellen zu können. ahso, für Beagle/Strigi? Da wärs natürlich wünschenswert die bauen ein entsprechendes Modul ein das Texte aus Bildern indiziert. Das wär' natürlich am einfachsten, aber ich glaube, das ist kaum praktikabel... so long hank
TheThatcher Anmeldungsdatum: 1. April 2011 Beiträge: 104	Zitieren 16. März 2012 02:18 die Quellen sind offline, allerdings traue ich mir als Anfänger eine Bearbeitung nicht zu...

« Vorherige12 Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »