A V3 full precisionben kb. 600 GB. Ehhez 25. db 4090 kell hogy betöltsd, vagy 8 H100. És a token-per-sec kérdéses. Az átlagembernek fogalma sincs egy LLM inference költségéről. Ezért nem temetem az Nvidiát. Nyilván tudsz kvantált modelt használni, az kisebb, de kevésbé "intelligens".
Comments