Tamamlandı

Gerçek Zamanlı Görsel Anlama AI

Kamera görüntüsünü anlık olarak analiz eden ve Türkçe açıklama üreten yapay zeka sistemi.

01. Problem

Görme engelli bireyler veya anlık çevre analizi ihtiyacı olanlar için gerçek zamanlı görsel açıklama sistemi gerekiyor. Mevcut çözümler ya çok yavaş ya da Türkçe desteklemiyor.

Kısıtlamalar

→Düşük gecikme süresi gereksinimi (<2 saniye)
→Türkçe dil desteği zorunluluğu
→Lokal çalışabilme (internet bağımsız, gizlilik)
→Farklı ışık koşullarında güvenilir çalışma

02. Yaklaşım

Ollama üzerinde LLaVA vision-language modeli kullanarak gerçek zamanlı görüntü analizi. OpenCV ile kamera entegrasyonu sağlandı. Görüntü ön işleme ile model performansı optimize edildi.

Model Seçimi

Seçilen Model

LLaVA (Ollama)

Gerekçe

Lokal çalışabilme özelliği sayesinde internet bağımsızlığı ve gizlilik sağlıyor. Türkçe dil desteği mevcut. API maliyeti yok ve açık kaynak olması geliştirmeyi kolaylaştırıyor.

03. Sonuçlar ve Değerlendirme

<2s

Yanıt Süresi

%85+

Doğruluk

TR/EN

Dil Desteği

Değerlendirme Yaklaşımı

Farklı ortam ve nesnelerle manuel test yapıldı. 100+ farklı sahne üzerinde doğruluk ölçümü gerçekleştirildi.

Sonuç

Başarıyla çalışan gerçek zamanlı görsel anlama sistemi geliştirildi. Sesli çıktı özelliği eklenebilir durumda. Görme engelli bireylere yardımcı olabilecek potansiyele sahip.

Öğrenilen Dersler

Vision-language modelleri hızla gelişiyor ve lokal kullanıma uygun hale geliyor

Lokal LLM performansı birçok kullanım senaryosu için yeterli olabiliyor

Prompt engineering, model çıktı kalitesini dramatik şekilde etkiliyor

Türkçe için ek prompt optimizasyonu daha iyi sonuçlar veriyor

Teknoloji Yığını

PythonOllamaLLaVAOpenCV

Etiketler

AIComputer VisionLLMPython

DG