staging.inyokaproject.org

Bilderkennung (Image Recognition) offline

Status: Gelöst | Ubuntu-Version: Ubuntu 24.10 (Oracular Oriole)
Antworten |

MarioNetz

Avatar von MarioNetz

Anmeldungsdatum:
7. Oktober 2005

Beiträge: 345

Moin,

Ich suche eine Software (kann z.B. ein Skript oder ein Service sein), welches ein Bild erkennt und diese Informationen in die Metadaten des Bildes schreibt. Natürlich offline. Rechenpower ist egal, da ich Zeit habe. Ich glaube, dass nennt Mensch heute KI. 😀 Denke so etwas gibt es in Unmengen, aber mein Googleglück versagt da ein wenig. Ich denke für Musik wäre das auch nicht so verkehrt.

Hat da jemand Erfahrung?

Grüße MarioNetz

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4450

Ich nutze dafür llama.cpp und aktuell das Modell Qwen2-VL-72B-Instruct, ist aber sehr RAM/vRAM lastig, es gibt auch kleinere Modelle der Art, hab lange llava-v1.6-34b verwendet. Das neue kann aber recht gut Deutsch, ist aber aus China, kennt also manches eher im Westen verbreitetes weniger (im Text2Text meinte mal wer, dass verschiedene Prominente dem Modell nicht bekannt seien).

Beispiel für den Aufruf:

./build/bin/llama-qwen2vl-cli -m models/qwen2-vl/72b/Qwen2-VL-72B-Instruct-Q4_K_L.gguf --mmproj models/qwen2-vl/72b/mmproj-Qwen2-VL-72B-Instruct-f32.gguf -p 'Beschreibe das Bild detailliert und liefere eine detaillierte Interpretation zum Bild, welche Aussage könnte dahinterstecken? Verwende deutsche Sprache.' --image /home/linux/Bilder/1.png --temp 0.1 -n -1 -c 4096

./build/bin/llama-qwen2vl-cli --help

für Hilfe.

Bei -p kann man angeben, was man möchte. Auch Anweisungen der Art "Beschreibe das Bild knapp, gib Stichworte aus, die den Inhalt und den Stil des Bildes beschreiben, etc.. Qwen2-VL-72B-Instruct antwortet eigentlich direkt in Deutsch, wenn der Prompt deutschsprachig ist, die Anweisung ist noch aus einem Test mit QVQ-72B-Preview übrig geblieben, das auf visuelles Mathe trainiert wurde.

Hier die Projektseiten:

Müsste man dann noch mit einem Programm kombinieren, das die Exifs oder so schreibt.

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4450

Als ich die Anweisung gab, gegliederten Text auszugeben, brachs ab, aber das wird gut umgesetzt (Modell Qwen2-VL-72B-Instruct-Q4_K_L.gguf):

-p 'Beschreibe das Bild mit kurzen Texten in der Form: Stil: <text>\n\nInhalt: <text>\n\nEnthaltener Text: <text>\n\n10 Beschreibende Stichworte: <keywords>\n\nPhilsosophische Aussage des Bildes: <text>'

Schön mit Zeilenumbrüchen. Das Bild lade ich hier nicht hoch, Einstein ist links, rechts ist das Zitat, die Ausgabe des Modelles:

Stil: Schwarz-Weiß-Fotografie

Inhalt: Albert Einstein sitzt mit verschränkten Händen und einem nachdenklichen Ausdruck im Gesicht.

Enthaltener Text: "Der Horizont vieler Menschen ist wie ein Kreis mit Radius Null. Und das nennen sie dann ihren Standpunkt!" - Albert Einstein

10 Beschreibende Stichworte: Albert Einstein, Schwarz-Weiß, Nachdenklich, Philosophie, Horizont, Radius Null, Standpunkt, Zitat, Wissenschaftler, Weisheit

Philosophische Aussage des Bildes: Die Aussage von Albert Einstein betont die Bedeutung des offenen Geistes und der Bereitschaft, neue Perspektiven zu erkennen. Sie kritisiert die Tendenz einiger Menschen, sich in ihren eigenen begrenzten Ansichten zu verlieren und diese als die einzige Wahrheit zu betrachten.

MarioNetz

(Themenstarter)
Avatar von MarioNetz

Anmeldungsdatum:
7. Oktober 2005

Beiträge: 345

OK, ich werde mich mal mit beschäftigen und melde mich, ob und wie das für mich klappt.

Danke

Antworten |