Gensyn 4070 super için her reward dağıtımında ortalama 500 puan getirecek ayarlar aşağıdaki gibidir şimdi ki amacım ise win'leri arttırmak.
3060 için ise max_completion_length: 1024 kısmını 512 'ye düşürün birde gpu'daki vram sınırı koymak için
vllm_gpu_memory_utilization: 0.85
komutunu ekletin bu %85 vram kullan demek

kullanıcılara bağlantıda sorun yaşıyorsanız
nano rl-swarm/hivemind_exp/runner/grpo_runner.py
dosyayını nano ile açın dht = hivemind.DHT(start=True, startup_timeout=30, **self._dht_kwargs(grpo_args))
satırındaki 30'u 120 yapıp tekrar deneyin
inanın buraya koyduğum bu bilgileri arasınızda bulmanız günler alacak

editlenecek config dosyası :
nano $HOME/rl-swarm/hivemind_exp/configs/mac/grpo-qwen-2.5-0.5b-deepseek-r1.yaml