1000x inference cost reduction by converting qwen/llama to rwkv architecture without retraining from scratch. Big if true/without-any-major-issues. Definitely worth checking. huggingface.co/recursal/QRW... - ThreadSky

datageek-pl.bsky.social • 78 days ago

1000x inference cost reduction by converting qwen/llama to rwkv architecture without retraining from scratch.

Big if true/without-any-major-issues. Definitely worth checking.

https://huggingface.co/recursal/QRWKV6-32B-Instruct-Preview-v0.1