# Model arguments
model_revision: main
torch_dtype: float32
bf16: false
tf32: false
# Dataset arguments
dataset_id_or_path: 'openai/gsm8k'
# Training arguments
max_steps: 20 # Original 450
gradient_accumulation_steps: 4
gradient_checkpointing: false
gradient_checkpointing_kwargs:
use_reentrant: false
learning_rate: 5.0e-7 # 1.0e-6 as in the deepseek math paper 5-e7 from
https://hijkzzz.notion.site/unrave>lr_scheduler_type: cosine
warmup_ratio: 0.03
# GRPO arguments
use_vllm: false
num_generations: 2
per_device_train_batch_size: 1
beta: 0.001 # 0.04 as in the deepseek math paper 0.001 from
https://hijkzzz.notion.site/unraveling-rlhf-a>max_prompt_length: 256
max_completion_length: 1024
# Logging arguments
logging_strategy: steps
logging_steps: 2
report_to:
- wandb
save_strategy: "steps"
save_steps: 25
seed: 42
# Script arguments
max_rounds: 10000
# Model-specific arguments
model_name_or_path: unsloth/Qwen2.5-0.5B-Instruct
output_dir: runs/gsm8k/multinode/Qwen2.5-0.5B-Instruct-Gensyn-Swarm
Bu ayarlar gensyn'de 4070 super için çalışan en ideal config'dir max_steps: 20 kısmındaki 20'yi istediğiniz gibi arttırarak tam performans alabilirsiniz tahmini olarak her saat başı görev geliyor gelen görevlerint akibi içinde @Gensyn_track_bot adlı telegram botunu kullanabilirsiniz bu 20 'de kalırsa win çok fazla geliyor 40 yaparsanızda reward çok fazla geliyor proje hangisinin daha değerli olduğunu açıklamadı bu dosyaya
nano $HOME/rl-swarm/hivemind_exp/configs/mac/grpo-qwen-2.5-0.5b-deepseek-r1.yaml
adresinden ulaşacaksınız.
3060-3070 için kiralık gpularda denemeler yapıyorum eğer başarılı olursam bir aylığına ciddi sayıda kiralarim.