Carnet Wiki

ocr_todo

Version 22 — September 2013 touti

Cette contribution est un TODO pour le plugin http://plugins.spip.net/ocr, en complément de OCR

Limitations

Seulement testé sur Ubuntu Raring et Debian Wheezy et Macosx ( via macports ) .

Développement

Le code du plugin est sur la zone.

On développe dans trunk.

Possibles améliorations

Langue :

  • appliquer tesseract dans la langue du site par défaut
  • ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
  • si le document a un champ lang, utiliser cette langue pour l’analyse. Voir langdoc.

Programme d’analyse :

  • utiliser php-tesseract directement, au lieu d’une commande native,
  • permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
  • proposer un document de test pour vérifier que l’analyse se fait bien ( oui bonne idée )
    -* détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
  • ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).
    -* Passer les images png transparentes en jpg fond blanc image_aplatir{jpg,ffffff}

SPIP :

  • traduire le plugin

Indexation et recherche :

  • générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF “cherchable”, attaché au document original.
  • tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.