Kamera görüntüsünü anlık olarak analiz eden ve Türkçe açıklama üreten yapay zeka sistemi.
Görme engelli bireyler veya anlık çevre analizi ihtiyacı olanlar için gerçek zamanlı görsel açıklama sistemi gerekiyor. Mevcut çözümler ya çok yavaş ya da Türkçe desteklemiyor.
Ollama üzerinde LLaVA vision-language modeli kullanarak gerçek zamanlı görüntü analizi. OpenCV ile kamera entegrasyonu sağlandı. Görüntü ön işleme ile model performansı optimize edildi.
LLaVA (Ollama)
Lokal çalışabilme özelliği sayesinde internet bağımsızlığı ve gizlilik sağlıyor. Türkçe dil desteği mevcut. API maliyeti yok ve açık kaynak olması geliştirmeyi kolaylaştırıyor.
Farklı ortam ve nesnelerle manuel test yapıldı. 100+ farklı sahne üzerinde doğruluk ölçümü gerçekleştirildi.
Başarıyla çalışan gerçek zamanlı görsel anlama sistemi geliştirildi. Sesli çıktı özelliği eklenebilir durumda. Görme engelli bireylere yardımcı olabilecek potansiyele sahip.
Vision-language modelleri hızla gelişiyor ve lokal kullanıma uygun hale geliyor
Lokal LLM performansı birçok kullanım senaryosu için yeterli olabiliyor
Prompt engineering, model çıktı kalitesini dramatik şekilde etkiliyor
Türkçe için ek prompt optimizasyonu daha iyi sonuçlar veriyor