How to clean noisy OCR data for the purpose of training LLMs?

I have some noisy OCR data. I want to train an LLM on it. What are the typical strategies/programs to clean noisy OCR data for the purpose of training LLMs?

submitted by /u/Franck_Dernoncourt to r/learnmachinelearning
[link] [comments]


Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *