ocr_todo

Version 23 — Février 2019 — moicubitus

Cette contribution est un TODO pour le plugin http://plugins.spip.net/ocr, en complément de OCR

Limitations

Seulement testé sur Ubuntu Raring et Debian Wheezy et Macosx (via macports)

Le code du plugin est sur la zone.

On développe dans trunk.

Langue :

appliquer tesseract dans la langue du site par défaut
ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
si le document a un champ lang, utiliser cette langue pour l’analyse. Voir langdoc.

Programme d’analyse :

utiliser php-tesseract directement, au lieu d’une commande native,
permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
proposer un document de test pour vérifier que l’analyse se fait bien (oui bonne idée)
détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).
Passer les images png transparentes en jpg fond blanc image_aplatir{jpg,ffffff}

SPIP :

Indexation et recherche :

générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF « cherchable », attaché au document original.
tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.