Hallo,
Ich würde gerne wissen wann eine Webseite zuletzt aktualisiert worden ist, gibt es dafür ein Terminal Programm?
Das hier funktioniert mit dem ffox nicht javascript:alert(document.lastModified)
lg,
![]() Anmeldungsdatum: Beiträge: 1088 |
Hallo, Ich würde gerne wissen wann eine Webseite zuletzt aktualisiert worden ist, gibt es dafür ein Terminal Programm? Das hier funktioniert mit dem ffox nicht javascript:alert(document.lastModified) lg, |
Supporter
![]() Anmeldungsdatum: Beiträge: 12070 |
Geht es um deine eigene Seite oder um "egal welche"?
|
(Themenstarter)
![]() Anmeldungsdatum: Beiträge: 1088 |
Es geht sich um egal welche, um zu schauen ob Öffnungszeiten aktualisiert worden sind, ich brauche Datum und Uhrzeit wann die Webseite zuletzt aktualisiert worden ist. Gibts für sowas kein terminal Befehl? lg, |
Anmeldungsdatum: Beiträge: 292 |
ubuntu--anfaenger Einen Terminalbefehl zu deinem Thema kenne ich nicht. |
Anmeldungsdatum: Beiträge: 990 |
Wie ChickenLipsRfun2eat bereits feststellt, kannst du Dateimetadaten nur erhalten und auswerten, wenn du auf die Dateien direkt zugreifen kannst. Selbst wenn ein Webserver nur statisches HTML ausliefert (also effektiv eine HTML-Datei nimmt und an deinen Rechner sendet), gehen diese Informationen verfahrensbedingt verloren. Und dynamisch generierte Seiten existieren gar nicht erst als Datei, also hier auch kein Ansatzpunkt. Es gibt Bibliotheken und Tools, die dir bei deinem Anliegen helfen können (z.B. BeautifulSoup🇬🇧, hxselect aus den html-xml-utils, Firefox Headless🇬🇧 und/oder Selenium🇬🇧 falls Javascript-Unterstützung notwendig ist, sonst cURL&Co.). Aufgrund der Art und Weise, wie Webseiten arbeiten, wirst du jedoch nicht vermeiden können, einen guten Teil Recherche und Entwicklungsleistung in die Aufgabe fließen zu lassen und für jede Seite eine individuelle Lösung zu basteln. Bevor du die genannten Tools in einem Skript zusammenführst, müsstest du auf die gewünschte Seite gehen und (z.B. mit Hilfe der Entwicklerwerkzeuge des Webbrowsers) herausfinden, wo die gesuchten Informationen im Quelltext untergebracht sind. Hast du das herausgefunden, kannst du diese mit den Tools automatisiert herausfischen, auswerten und dir die gesuchte Antwort ausgeben lassen. Gibt es auf der Seite selbst keine zulässige Information über die letzte Änderung, kannst du die Seite zyklisch abrufen, z.B. die Öffnungszeiten herausfiltern/zwischenspeichern und sobald die zuletzt abgerufenen Zeiten von den zwischengespeicherten Zeiten abweichen vermerken, dass sich das zu diesem Zeitpunkt geändert hat. Da ein eventuelles Änderungdatum einer Seite auch andere Informationen betreffen kann, müsstest du selbst bei einem vorhandenen Änderungszeitpunkt die Öffnungszeiten überprüfen, wenn du es genau haben willst. |
(Themenstarter)
![]() Anmeldungsdatum: Beiträge: 1088 |
Ich hab das jetzt so mal ausprobiert, das klappt auch sehr gut, aber mir fehlt dann immer noch Datum und Uhrzeit..kann man das auch irgendwie rauskriegen? |
Anmeldungsdatum: Beiträge: 990 |
Wie gesagt: Du bekommst keine Dateisystemmetadaten mitgeliefert. Der Vorschlag mit dem Herunterladen und Vergleichen bzw. dem Erstellen von Hash-Werten ist eine Variante des von mir in meiner letzten Antwort angesprochenen Ansatzes, bei dem du automatisiert feststellen kannst, wann sich etwas verändert hat, indem du die Seite immerzu abfragst. Ändert sich etwas, ändert sich der Hash bzw. der Vergleich zeigt, dass es Unterschiede gibt, und du kannst damit annäherungsweise bestimmen, zu welchem Zeitpunkt die Änderung stattgefunden hat. |
(Themenstarter)
![]() Anmeldungsdatum: Beiträge: 1088 |
Ok danke euch, wieder was dazu gelernt, ich habe auch mal ffox headless ausprobiert, aber ich bleibe bei dem was ChickenLipsRfun2eat mir vorgeschlagen hat. |