ocr_todo

Version 21 — Septembre 2013 — YannX

Limitations

Seulement testé sur Ubuntu Raring et Debian Wheezy.

Le code du plugin est sur la zone.

On développe dans trunk.

Langue :

appliquer tesseract dans la langue du site par défaut
ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
si le document a un champ lang, utiliser cette langue pour l’analyse. Voir langdoc.

Programme d’analyse :

utiliser php-tesseract directement, au lieu d’une commande native,
permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
proposer un document de test pour vérifier que l’analyse se fait bien
détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).

SPIP :

Indexation et recherche :

générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF « cherchable », attaché au document original.
tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.