olmocr est un outil permettant de linéariser les documents PDF en vue de leur exploitation par des LLM à des fins d’entraînement ou de création de datasets. Très pratique pour extraire de la donnée relativement structurée et exploitable ⬇️

https://github.com/allenai/olmocr

Comments