Version 3 — Août 2013 — severo
Analyser un fichier image (typiquement un document scanné) pour extraire le texte contenu. L’objectif n’est pas d’afficher le texte extrait, car le résultat sera trop approximatif, mais bien de permettre la recherche sur le contenu.
Cette contribution est un document de spécifications pour un nouveau plugin ocr
. Il n’y a pas encore de code.
Les documents scannés, en particulier, peuvent contenir du texte dans lequel on aimerait pouvoir chercher depuis le moteur de recherche de SPIP.
Ce plugin fera uniquement l’extraction d’un texte depuis une image et le stockage de ce texte dans un champ de l’image (nouveau champ ocr
de la table spip_documents
).
Pour pouvoir chercher dans ce nouveau champ, il faudra utiliser et configurer le plugin [fulltext->http://contrib « fulltext »:http://contrib .spip.net/fulltext]. .
Le plugin sera basé sur la commande [tesseract->http://code tesseract :« http://code .google.com/p/tesseract-ocr/wiki/ReadMe]. ».
Le plugin proposera les configurations suivantes :
/usr/bin/tesseract
)-fra
pour analyse en français)L’analyse sera gérée par la file d’attente (http://plugins.spip.net/facd.html).
Seulement testé sur Ubuntu Raring.
Le code du plugin sera sur la [zone->http://zone « zone »:http://zone .spip.org/trac/spip-zone/browser/_plugins_/ocr/]. /.
On développera developpera dans trunk
.
Langue :
tesseract
dans la langue du site par défautlang
, utiliser cette langue pour l’analyse. Voir [langdoc->http://contrib « langdoc »:http://contrib .spip.net/langdoc]. .Programme d’analyse :
Indexation et recherche :