Hallo Leute,
Derzeit nutze ich für ein Uniprojekt "Webscraping". In einem Kurs habe ich mit "Scraper" gearbeitet. Ein Plugin für Chromium dass man mit XPath "bedient". Das Plugin ist super einfach, aber auch leider ein bisschen zu limitiert für meine Zwecke.
Was ich möchte ist eine komplette Forenkonversation (in einem Thread) in eine CSV-Datei / Calc-Tabelle übertragen. Pro Spalte dann jeweils Autor, Post, Datum etc. Momentan schaffe ich das sehr gut, aber es ist auch super umständlich und ich habe mich gefragt wie man so ein Projekt angehen könnte wenn man es weniger umständlich haben möchte?
Mit HTML und Xpath kenne ich mich recht gut aus. Aber ich habe XPath wie gesagt immer in der Chromium-Erweiterung eingetippt und das Tool hat mir dann die Tabelle ausgegeben die ich dann in Calc einfügen konnte. Von Python, Perl usw. habe ich leider absolut keine Ahnung und ich scheine auch ein bisschen Scripting-Legastheniker zu sein... ☺
Von Scrapy habe ich schon gehört, aber mich hat der vergleichsweise große Aufwand und die Komplexität abgeschreckt. Da es sich nur um einzelne Threads eines Forums dreht will ich auch nicht zuviel Aufwand in das Skript stecken (außer es muss sein). Gibt es etwas dass ein bisschen besser ist als ein Webscraping-Plugin für den Browser, aber ein bisschen anfängerfreundlicher als Scrapy?
Tipps, Ratschläge? Ich bin für alles dankbar was euch einfällt.