A lo mejor descargaron a lo loco, con algún automatismo, en plan muchísimas veces el mismo libro sabéis? Esa es la cantidad de datos total que descargó, a lo bestia, de libros en todos los idiomas posibles, puede ser...
Anna's está un poco encima del petabyte. No todo son novelas de sólo texto. Incluye muchas revistas, publicaciones científicas y otros ficheros con imágenes, además de incluir decenas de idiomas.
Una cosa que pasa cuando pirateas libros (me lo han contado) es que algunos están escaneados, como imagen.
Y entonces en vez de ser 50 kB de texto comprimido, ocupan varios megas.
Así que podrían ser "solamente" un par de millones de libros
Por otro lado, la güiquipedia en inglés ENTERA se puede comprimir en 20 GB.
O sea, que han mangao 4000 güiquipedias. Pero de libros que no son copyleft
Ahí han debido rellenar como los cartuchos de 'cien juegos en uno' que traían 20 versiones del Tetris. Le han empezado a echar paladas de libros y hasta que no han metido hasta la traducción de 'El Señor de los Anillos' a euskera, quechua, etc, no han parado.
Comments
y no había caído en que también lo entrenarían con textos que tuvieran imágenes, eso es cierto
Y entonces en vez de ser 50 kB de texto comprimido, ocupan varios megas.
Así que podrían ser "solamente" un par de millones de libros
O sea, que han mangao 4000 güiquipedias. Pero de libros que no son copyleft
https://www.elconfidencial.com/tecnologia/2025-02-04/gran-apagon-trump-musk-borrar-millones-datos-publicos_4056591/
Tiene el puntíssimo loco de "esto podría venir de corea" pero es demasiado bonito