ocr_todo

Version 22 — Septembre 2013 — touti

Cette contribution est un TODO pour le plugin http://plugins.spip.net/ocr, en complément de OCR

Limitations

Seulement testé sur Ubuntu Raring et Debian Wheezy et Macosx ( via macports ) .

Le code du plugin est sur la zone.

On développe dans trunk.

Langue :

appliquer tesseract dans la langue du site par défaut
ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
si le document a un champ lang, utiliser cette langue pour l’analyse. Voir langdoc.

Programme d’analyse :

utiliser php-tesseract directement, au lieu d’une commande native,
permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
proposer un document de test pour vérifier que l’analyse se fait bien ( oui bonne idée )
-* détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).
-* Passer les images png transparentes en jpg fond blanc image_aplatir{jpg,ffffff}

SPIP :

Indexation et recherche :

générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF « cherchable », attaché au document original.
tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.