A V3 full precisionben kb. 600 GB. Ehhez 25. db 4090 kell hogy betöltsd, vagy 8 H100. És a token-per-sec kérdéses. Az átlagembernek fogalma sincs egy LLM inference költségéről. Ezért nem temetem az Nvidiát. Nyilván tudsz kvantált modelt használni, az kisebb, de kevésbé "intelligens". - ThreadSky

About ThreadSky

talien1985.bsky.social • 43 days ago

A V3 full precisionben kb. 600 GB. Ehhez 25. db 4090 kell hogy betöltsd, vagy 8 H100. És a token-per-sec kérdéses. Az átlagembernek fogalma sincs egy LLM inference költségéről. Ezért nem temetem az Nvidiát. Nyilván tudsz kvantált modelt használni, az kisebb, de kevésbé "intelligens".

Comments

talien1985.bsky.social•43 days ago

Mondjuk az tény hogy a DeepSeek egyik nagy innovációja, hogy a saját infrájukon az inference is hatékonyabb.

ethazatelefonal.bsky.social•43 days ago

Persze. Most, hogy már az open source is tud annyit még inkább fontos lesz a videókártya eladás. A részvényvisszaesés főleg amiatt van, mert eddig az volt a mondás, hogy irgalmatlan pénzek kellettek trainingre, a kínaik meg megoldották sokkal kevesebből ($6 millióért vettek Nvidia H800-asokat).

iben.ch•43 days ago

En aztan kurvara nem ertek ehhez, egy haverom mondta, h "egy 70b[-s modellt] siman lehet otthoni korulmenyek kozott is futtatni", szal ¯\_(ツ)_/¯

talien1985.bsky.social•43 days ago

70b-set otthon vagy erősen kvantált változatban futtatsz (Q2/Q3), ami ront a minőségen erősen, vagy CPU offloaddal, ami a sebességen, vagy összekötsz sok kártyát. CPU offloaddal nem lesz 10-15 tok/secnél gyorsabb inferenced.

ethazatelefonal.bsky.social•43 days ago

Lehet hát, csak nem éri meg. Kb. £5000 a gép, ami viszi, és napi £9 áramot fogyaszt.

Posting Rules

Be respectful to others
No spam or self-promotion
Stay on topic
Follow Bluesky's terms of service

Comments

Posting Rules

Reply