Carnet Wiki

ocr_todo

Version 23 — 9 February — moicubitus

Cette contribution est un TODO pour le plugin http://plugins.spip.net/ocr, en complément de OCR

Limitations

Seulement testé sur Ubuntu Raring et Debian Wheezy et Macosx (via macports)

Développement

Le code du plugin est sur la zone.

On développe dans trunk.

Possibles améliorations

Langue :

  • appliquer tesseract dans la langue du site par défaut
  • ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
  • si le document a un champ lang, utiliser cette langue pour l’analyse. Voir langdoc.

Programme d’analyse :

  • utiliser php-tesseract directement, au lieu d’une commande native,
  • permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
  • proposer un document de test pour vérifier que l’analyse se fait bien (oui bonne idée)
  • détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
  • ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).
  • Passer les images png transparentes en jpg fond blanc image_aplatir{jpg,ffffff}

SPIP :

  • traduire le plugin

Indexation et recherche :

  • générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF “cherchable”, attaché au document original.
  • tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.