OCR état de l'art sous linux

Où en est-on avec les logiciels d'Optical Character Recognition ? Logiciels / Graphisme photo et vidéo

Antoniop Membre non connecté

Le 27/04/2017 à 23h41

Bonjour,
Je me suis intéressé à l'OCR pour une raison simple : lorsque je scanne un document en PDF, je veux pouvoir faire une recherche textuelle dans ce PDF, car par défaut un scan produit simplement une image compressée.
Je me suis aperçu que l'imprimante scanner du boulot produisait un PDF avec du texte que l'on pouvait rechercher et sélectionner, alors que mon scanner à la maison ne produisait qu'une image
J'ai alors découvert que les fichiers PDF "avec texte" comporte en réalité 2 couches : une couche image et une couche texte.
Pour obtenir la couche texte, il faut un OCR et un logiciel qui sache réunir les 2 couches sur un même fichier.

Tesseract fait cela plutôt bien, mais j'ai dû repartir des sources pour que ça marche.
J'ai un peu galéré pour trouver toutes les astuces, alors je vais les décrire ici.
Si tu ne t'intéresses qu'à l'OCR et pas à son inclusion dans le PDF, il ne faudra faire qu'une partie des manips

Tout d'abord, tesseract ne supportant les PDF avec texte qu'à partir de la version 3.03 et mageia n'ayant que la version 3.02, j'ai téléchargé les sources

Le wiki
https://github.com/tesseract-ocr/tesseract/wiki

Téléchargement des sources
Télécharger le fichier tar du code source
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
il faut décompresser le tar en ligne de commande :

Code BASH :

tar -tzf tesseract-xx.tar.gz

cela créé un sous répertoire tesseract-xxx
aller dans ce répertoire

Code BASH :

cd tesseract-xx

Compilation et installation
Leptonica doit être installé au préalable, mais pour cela tu peux installer les rpm mageia.
J'ai installé :

Code TEXT :

$ rpm -qa|grep leptonica
lib64leptonica-devel-1.71-3.mga5
lib64leptonica4-1.71-3.mga5

Il faut lancer la configuration et l'installation

Code BASH :

./autogen.sh
./configure
make
sudo make install
sudo ldconfig

Sudo installe les executables produits en mode root.
Si tu n'as pas configuré sudo, tu peux te logger root en tapant :
$ su
puis taper :

Code BASH :

make install
ldconfig

sortir ensuite du login root en faisant CTRL-D

Récupérer les langages
Télécharger les fichiers <lang>.traineddata
de https://github.com/tesseract-ocr/tessdata

Il faut récupérer obligatoirement :
eng.traineddata
pour le français :
fra.traineddata
pour produire des outputs en pdf :
osd.traineddata

Attention de prendre les fichiers qui correspondent à la version de tesseract.

Il faut dézipper les fichiers et les placer dans le répertoire tessdata, ce qui donne :

Code TEXT :

/usr/local/share/tessdata/osd.traineddata
/usr/local/share/tessdata/eng.traineddata
/usr/local/share/tessdata/fra.traineddata

Lancer une reconnaissance simple en français

Code BASH :

tesseract -l fra <fichier image input(tiff ou pnm)> <fichier sortie>

Le fichier de sortie est un fichier texte

Créer un fichier PDF avec texte

Code BASH :

tesseract -psm 1 -l <lang> <fichier image input(tiff ou pnm)> <fichier sortie> pdf

exemple :

Code BASH :

tesseract -psm 1 -l fra fic1.tiff fic2 pdf

NB : le fichier de sortie ne comporte pas d'extension

A savoir : la résolution optimale est généralement de 300 dpi pour avoir un bon scan. La qualité du scanner et de l'original entre en jeu, car si on augmente la résolution la reconnaissance peut être meilleure ou pire, car des imperfections sont alors détectées et peuvent fausser la reconnaissance .

Pour optimiser la reconnaissance, il est conseillé de "nettoyer le fichier image", de le redresser un peu s'il est de travers, bref voila les manips que je faits :

d'abord je scanne avec scanimage :

Code BASH :

scanimage --device-name "device" --resolution 300 >output_file1

(remplacer "device" par le nom de ton scanner)
le fichier produit est au format ppm

ensuite je nettoie le fichier avec unpaper, qui enlève les bordures noires, pivote l'image si elle est de travers, etc :

Code BASH :

unpaper -l single --dpi 300 -dn left,right,top,bottom --type ppm output_file1 output_file2.ppm

tesseract ne prend pas les fichiers ppm pour l'OCR, donc je convertis ce fichier en tiff :

Code BASH :

convert -density "300x300" -units PixelsPerInch output_file2.ppm output_file2.tiff

ensuite, ouf, je lance tesseract pour produire le fichier PDF final :

Code BASH :

tesseract -psm 1 -l fra output_file2.tiff output_file pdf

(bien évidemment, l'idéal est de faire un petit script qui enchaine les différentes étapes)

si cela ne t'intéresse pas d'avoir un PDF, tu peux lancer plutôt la commande suivante à la place :

Code BASH :

tesseract -l fra output_file2.tiff output_file

output_file sera un fichier texte tout simple

Je ne connais pas d'interface graphique pour tesseract, par contre il y a gscan2pdf (disponible sur Mageia) qui est un outil graphique qui sait scanner avec OCR tesseract et et enregistrer en PDF.

Édité par Antoniop Le 27/04/2017 à 23h46

Répondre

Vous n'êtes pas autorisé à écrire dans cette catégorie

Notre Mission	Liens du site	Nous joindre	MLO est hébergé par
MLO est le forum francophone de la distribution Mageia et vous propose également un portail dédié aux débutants. MLO vous apporte un support sur la distribution grâce à son forum et vous offre des nouvelles de la distribution, des logiciels libres et de l'Open Source en général. Notre site a aussi pour but de vous montrer que Mageia est un système d'exploitation complet et facile à prendre en main. Vous apprendrez à installer simplement et à administrer efficacement votre système en un temps record.	Forum Documentation News du libre Mageia	Contacter MLO Mastodon MLO Flux RSS	MLO est un projet soutenu par Nos partenaires et amis
MLO est mis à disposition selon les termes de la licence Creative Commons.

bermisch Membre non connecté

Papoteur Membre non connecté

Antoniop Membre non connecté

m@rco123 Membre non connecté

lebarhon Membre non connecté

Antoniop Membre non connecté

Papoteur Membre non connecté

Antoniop Membre non connecté

Troumad Membre non connecté

Papoteur Membre non connecté

funix Membre non connecté