Ich nutze dafür llama.cpp und aktuell das Modell Qwen2-VL-72B-Instruct, ist aber sehr RAM/vRAM lastig, es gibt auch kleinere Modelle der Art, hab lange llava-v1.6-34b verwendet. Das neue kann aber recht gut Deutsch, ist aber aus China, kennt also manches eher im Westen verbreitetes weniger (im Text2Text meinte mal wer, dass verschiedene Prominente dem Modell nicht bekannt seien).
Beispiel für den Aufruf:
./build/bin/llama-qwen2vl-cli -m models/qwen2-vl/72b/Qwen2-VL-72B-Instruct-Q4_K_L.gguf --mmproj models/qwen2-vl/72b/mmproj-Qwen2-VL-72B-Instruct-f32.gguf -p 'Beschreibe das Bild detailliert und liefere eine detaillierte Interpretation zum Bild, welche Aussage könnte dahinterstecken? Verwende deutsche Sprache.' --image /home/linux/Bilder/1.png --temp 0.1 -n -1 -c 4096
./build/bin/llama-qwen2vl-cli --help
für Hilfe.
Bei -p kann man angeben, was man möchte. Auch Anweisungen der Art "Beschreibe das Bild knapp, gib Stichworte aus, die den Inhalt und den Stil des Bildes beschreiben, etc.. Qwen2-VL-72B-Instruct antwortet eigentlich direkt in Deutsch, wenn der Prompt deutschsprachig ist, die Anweisung ist noch aus einem Test mit QVQ-72B-Preview übrig geblieben, das auf visuelles Mathe trainiert wurde.
Hier die Projektseiten:
Müsste man dann noch mit einem Programm kombinieren, das die Exifs oder so schreibt.