Carnet Wiki

ocr

Version 1 — August 2013 severo — Version initiale

Analyser un fichier image (typiquement un document scanné) pour extraire le texte contenu. L’objectif n’est pas d’afficher le texte extrait, car le résultat sera trop approximatif, mais bien de permettre la recherche sur le contenu.

Présentation

Les documents scannés, en particulier, peuvent contenir du texte dans lequel on aimerait pouvoir chercher depuis le moteur de recherche de SPIP.

Ce plugin fera uniquement l’extraction d’un texte depuis une image et le stockage de ce texte dans un champ de l’image (nouveau champ ocr de la table spip_documents).