Bilderkennung (Image Recognition) offline › Programme › Ubuntu verwenden › Forum › staging.inyokaproject.org

Bilderkennung (Image Recognition) offline

« Vorherige1Nächste »

Status: Gelöst | Ubuntu-Version: Ubuntu 24.10 (Oracular Oriole)
Antworten |

MarioNetz Anmeldungsdatum: 7. Oktober 2005 Beiträge: 345	Zitieren 26. Dezember 2024 17:44 Moin, Ich suche eine Software (kann z.B. ein Skript oder ein Service sein), welches ein Bild erkennt und diese Informationen in die Metadaten des Bildes schreibt. Natürlich offline. Rechenpower ist egal, da ich Zeit habe. Ich glaube, dass nennt Mensch heute KI. 😀 Denke so etwas gibt es in Unmengen, aber mein Googleglück versagt da ein wenig. Ich denke für Musik wäre das auch nicht so verkehrt. Hat da jemand Erfahrung? Grüße MarioNetz
verdooft Anmeldungsdatum: 15. September 2012 Beiträge: 4450	Zitieren 26. Dezember 2024 18:50 (zuletzt bearbeitet: 26. Dezember 2024 19:24) Ich nutze dafür llama.cpp und aktuell das Modell Qwen2-VL-72B-Instruct, ist aber sehr RAM/vRAM lastig, es gibt auch kleinere Modelle der Art, hab lange llava-v1.6-34b verwendet. Das neue kann aber recht gut Deutsch, ist aber aus China, kennt also manches eher im Westen verbreitetes weniger (im Text2Text meinte mal wer, dass verschiedene Prominente dem Modell nicht bekannt seien). Beispiel für den Aufruf: ./build/bin/llama-qwen2vl-cli -m models/qwen2-vl/72b/Qwen2-VL-72B-Instruct-Q4_K_L.gguf --mmproj models/qwen2-vl/72b/mmproj-Qwen2-VL-72B-Instruct-f32.gguf -p 'Beschreibe das Bild detailliert und liefere eine detaillierte Interpretation zum Bild, welche Aussage könnte dahinterstecken? Verwende deutsche Sprache.' --image /home/linux/Bilder/1.png --temp 0.1 -n -1 -c 4096 ./build/bin/llama-qwen2vl-cli --help für Hilfe. Bei -p kann man angeben, was man möchte. Auch Anweisungen der Art "Beschreibe das Bild knapp, gib Stichworte aus, die den Inhalt und den Stil des Bildes beschreiben, etc.. Qwen2-VL-72B-Instruct antwortet eigentlich direkt in Deutsch, wenn der Prompt deutschsprachig ist, die Anweisung ist noch aus einem Test mit QVQ-72B-Preview übrig geblieben, das auf visuelles Mathe trainiert wurde. Hier die Projektseiten: llama.cpp: https://github.com/ggerganov/llama.cpp ggufs (quantisiert): https://huggingface.co/bartowski/Qwen2-VL-72B-Instruct-GGUF bartowski hat auch die anderen Modelle (weniger Parameter, geringerer Speicherbedarf) Müsste man dann noch mit einem Programm kombinieren, das die Exifs oder so schreibt.
verdooft Anmeldungsdatum: 15. September 2012 Beiträge: 4450	Zitieren 27. Dezember 2024 00:10 Als ich die Anweisung gab, gegliederten Text auszugeben, brachs ab, aber das wird gut umgesetzt (Modell Qwen2-VL-72B-Instruct-Q4_K_L.gguf): -p 'Beschreibe das Bild mit kurzen Texten in der Form: Stil: <text>\n\nInhalt: <text>\n\nEnthaltener Text: <text>\n\n10 Beschreibende Stichworte: <keywords>\n\nPhilsosophische Aussage des Bildes: <text>' Schön mit Zeilenumbrüchen. Das Bild lade ich hier nicht hoch, Einstein ist links, rechts ist das Zitat, die Ausgabe des Modelles: Stil: Schwarz-Weiß-Fotografie Inhalt: Albert Einstein sitzt mit verschränkten Händen und einem nachdenklichen Ausdruck im Gesicht. Enthaltener Text: "Der Horizont vieler Menschen ist wie ein Kreis mit Radius Null. Und das nennen sie dann ihren Standpunkt!" - Albert Einstein 10 Beschreibende Stichworte: Albert Einstein, Schwarz-Weiß, Nachdenklich, Philosophie, Horizont, Radius Null, Standpunkt, Zitat, Wissenschaftler, Weisheit Philosophische Aussage des Bildes: Die Aussage von Albert Einstein betont die Bedeutung des offenen Geistes und der Bereitschaft, neue Perspektiven zu erkennen. Sie kritisiert die Tendenz einiger Menschen, sich in ihren eigenen begrenzten Ansichten zu verlieren und diese als die einzige Wahrheit zu betrachten.
MarioNetz (Themenstarter) Anmeldungsdatum: 7. Oktober 2005 Beiträge: 345	Zitieren 27. Dezember 2024 17:47 OK, ich werde mich mal mit beschäftigen und melde mich, ob und wie das für mich klappt. Danke

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »