olmocr est un outil permettant de linéariser les documents PDF en vue de leur exploitation par des LLM à des fins d’entraînement ou de création de datasets. Très pratique pour extraire de la donnée relativement structurée et exploitable ⬇️
https://github.com/allenai/olmocr
https://github.com/allenai/olmocr
Comments