#Deepseek annonce-t-il la fin de #NVIDIA ?
Deepseek affirme avoir égalé #ChatGPT avec un coût hardware/énergie de 5,6 millions USD$ (le coût de location des GPU). Les estimations me paraissent crédibles. Comment y sont-ils parvenus ? Et le CNRS pourrait-il les imiter ?
https://arxiv.org/abs/2412.19437
Deepseek affirme avoir égalé #ChatGPT avec un coût hardware/énergie de 5,6 millions USD$ (le coût de location des GPU). Les estimations me paraissent crédibles. Comment y sont-ils parvenus ? Et le CNRS pourrait-il les imiter ?
https://arxiv.org/abs/2412.19437
Comments
Prenez 10^11 paramètres et 10^13 données, ça fait 10^24 operations. Un GPU peut en faire 10^14 par seconde, donc il faut 10^7 GPU-heures.
Llama 3 a nécessité 30M GPU-heures.
Voilà qui réduit les coûts d'un ordre de grandeur (non seulement à l'entraînement, avec 3M GPU-heures, mais à l'inférence aussi !).
Tout ça leur a fait gagner un autre ordre de grandeur en coût d'entraînement.
Et donc, qu'est-ce que cela implique ?
De plus, on approche d'une saturation des données accessibles.
Et je parie que d'autres astuces réduiront ce coût.