Version 6 — Août 2013 — severo
Analyser un fichier image (typiquement un document scanné) pour extraire le texte contenu. L’objectif n’est pas d’afficher le texte extrait, car le résultat sera trop approximatif, mais de permettre la recherche sur le contenu.
Cette contribution est un document de spécifications pour un nouveau plugin ocr
. Il n’y a pas encore de code.
Les documents scannés, en particulier, peuvent contenir du texte dans lequel on aimerait pouvoir chercher depuis le moteur de recherche de SPIP.
Ce plugin fera uniquement l’extraction d’un texte depuis une image et le stockage de ce texte dans un champ de l’image (nouveau champ ocr
de la table spip_documents
).
Pour pouvoir chercher dans ce nouveau champ, il faudra utiliser et configurer le plugin fulltext.
Le plugin sera basé sur la commande tesseract.
Le plugin proposera les configurations suivantes :
/usr/bin/tesseract
)-fra
pour analyse en français)L’analyse sera gérée par la file d’attente (http://plugins.spip.net/facd.html).
Seulement testé sur Ubuntu Raring.
Le code du plugin est sur la zone.
On développera dans trunk
.
Les tâches pour le développement du plugin :
A la fin de ces tâches, on passe en test.
Langue :
tesseract
dans la langue du site par défautlang
, utiliser cette langue pour l’analyse. Voir langdoc.Programme d’analyse :
SPIP :
tmp/log/ocr.log
#ID_DOCUMENT|ocr_analyser
: analyse le document, retourne true
si analyse réussie, deja analyse
si le document a déjà été analysé, non analysable
si le document ne peut pas être analysé.#ID_DOCUMENT|ocr_analysable
: retourne true
si le document peut être analysé.#ID_DOCUMENT|ocr_analyse
: retourne true
si le document a déjà été analysé.Indexation et recherche :
Page de documentation sur SPIP-Contrib.