GRPO makes everything better 😌 - ThreadSky | a Reddit-style client for Bluesky

hamishivi.bsky.social • 78 days ago

GRPO makes everything better 😌

🔥 allenai/Llama-3.1-Tulu-3-8B (trained with PPO) -> allenai/Llama-3.1-Tulu-3.1-8B (trained with GRPO)

We are happy to "quietly" release our latest GRPO-trained Tulu 3.1 model, which is considerably better in MATH and GSM8K!