Pekiştirmeli öğrenme ile kendini eğiten ve optimal strateji geliştiren tic-tac-toe oyuncu yapay zekası.
Klasik oyunlarda yapay zekanın strateji öğrenme ve optimal hamle bulma sürecini anlamak ve uygulamak.
Q-Learning algoritması ile pekiştirmeli öğrenme uygulandı. Epsilon-greedy strateji ile keşif ve kullanım dengesi sağlandı.
Q-Learning
Basit ama etkili bir pekiştirmeli öğrenme algoritması. Discrete state-action space için ideal. Öğrenme sürecini gözlemlemeye uygun.
Random ve optimal rakiplere karşı binlerce oyun ile test edildi.
Neredeyse yenilmez XOX oyuncusu geliştirildi. Reinforcement learning temellerini anlamak için mükemmel bir uygulama projesi oldu.
RL temelleri en iyi pratik uygulama ile öğreniliyor
Hyperparameter tuning (learning rate, epsilon decay) sonucu dramatik etkiliyor
Basit oyunlar RL algoritmaları için ideal test ortamı
Convergence garantisi için dikkatli tasarım gerekiyor