Carnet Wiki

ocr_todo

Version 21 — Septembre 2013 YannX

Cette contribution est un TODO pour le plugin " class="spip_url spip_out auto" rel="nofollow external">http://plugins.spip.net/ocr, en complément de [-> 4432] .

Limitations

Seulement testé sur Ubuntu Raring et Debian Wheezy.

Développement

Le code du plugin est sur la zone.

On développe dans trunk.

Possibles améliorations

Langue :

  • appliquer tesseract dans la langue du site par défaut
  • ajouter un paramètre de configuration de la langue (par défaut avec la langue du site)
  • si le document a un champ lang, utiliser cette langue pour l’analyse. Voir langdoc.

Programme d’analyse :

  • utiliser php-tesseract directement, au lieu d’une commande native,
  • permettre de se brancher sur d’autres programmes d’analyse, comme OpenOcr.
  • proposer un document de test pour vérifier que l’analyse se fait bien
  • détecter la résolution du document et avertir de la faible fiabilité possible du résultat en cas de faible résolution du document
  • ajouter à la configuration une liste de mots personnalisable, permettant d’enrichir le modèle de langue (noms propres récurrents dans les documents du site, par exemple).

SPIP :

  • traduire le plugin

Indexation et recherche :

  • générer un document hOCR donnant la position des lettres reconnues par OCR dans l’image, et générer un PDF « cherchable », attaché au document original.
  • tester avec Sphinx et utiliser ses nouvelles fonctions JSON pour donner également la page du PDF.