OCRFeeder et Tessaract

OCRFeeder et Tessaract [Réglé]

Le logiciel de ne reconnaît pas le texte Logiciels / Bureautique

Ysabeau Membre non connecté

Le 27/09/2023 à 14h44

Voir le profil du membre Ysabeau
Inscrit le : 09/08/2015
Site internet
Groupes :
Ambassadeur

Bonjour,

je voudrais utiliser OCRFeeder pour reconnaître le texte de PDF en texte ou en image

Quel que soit le moteur d'OCR, le texte n’est pas reconnu. J'ai pourtant, pour Tesseract, installé le module de langue fr. OCRFeeder semble oublier la langue.

gscan2pdf ne fonctionne pas (il a l'air de ne rien faire du tout) et l'installation d'un flatpak a échoué.

Il y a un truc que je n'ai pas fait ?

Merci.

OS préféré Mageia, environnements de bureau LXDE et XFCE, CMS préféré SPIP, suite bureautique préférée LibreOffice, logiciel de dessin préféré Inkscape.

steven Membre non connecté

Le 27/09/2023 à 15h38

#316330

Voir le profil du membre steven
Inscrit le : 18/05/2018

de l'exeperience que j'en ai des ocr ils n'ont jamais vraiment été ... top top.. (surtout avec la langue française (pt'etre a cause des accents etc (particularité de la langue je pense...))

No Comment ...

Merci de ne pas 'rebondir' sur mes post's

Censor => 2025

Papoteur Membre non connecté

Modérateur Équipe Mageia Administrateur Forgeron

Le 27/09/2023 à 23h23

#316361

Voir le profil du membre Papoteur
Inscrit le : 03/10/2011
Groupes :
Modérateur
Équipe Mageia
Administrateur
Forgeron

J'ai l'expérience d'OCR qui m'ont bien servis, y compris en français. Le plus pratique est en effet d'ouvrir les documents dans gscan2pdf et de lancer la ROC dessus.
Sauf qu'en effet, ça ne marche pas dans Mageia 9.

Code TEXT :

ERROR - Open file, Error extracting images from PDF

Il n'est pas évident de trouver ce qui cloche, il faudra un rapport de bogue.
Je te remercie de m'avoir fait découvrir OCRFeeder, qui marche bien pour moi.
L'installation a appelé:
gtkspell3-3.0.10-3.mga9.x86_64 lib64art_lgpl2-2.3.21-13.mga9.x86_64 lib64gtkspell3-gir3.0-3.0.10-3.mga9.x86_64 lib64gtkspell3_0-3.0.10-3.mga9.x86_64
ocrfeeder-0.8.5-1.mga9.noarch python-odf-doc-1.4.1-4.mga9.noarch python-odf-tools-1.4.1-4.mga9.noarch python3-defusedxml-0.7.1-3.mga9.noarch
python3-odf-1.4.1-4.mga9.noarch python3-reportlab-3.6.13-1.mga9.x86_64 python3-sane-2.9.1-5.mga9.x86_64

Yves

Papoteur Membre non connecté

Modérateur Équipe Mageia Administrateur Forgeron

Le 28/09/2023 à 10h01

#316375

Voir le profil du membre Papoteur
Inscrit le : 03/10/2011
Groupes :
Modérateur
Équipe Mageia
Administrateur
Forgeron

Papoteur :

Code TEXT :

ERROR - Open file, Error extracting images from PDF

Finalement, il suffit d'installer poppler.

Yves

Ysabeau Membre non connecté

Ambassadeur

Le 28/09/2023 à 11h23

#316381

Voir le profil du membre Ysabeau
Inscrit le : 09/08/2015
Site internet
Groupes :
Ambassadeur

Finalement j'ai pu faire fonctionner gscan2pdf et c'est plutôt efficace, mais assez lent. Il m'a balancé aussi des messages d'erreur de ce style. Mais il fait tout de même le travail.

Si l'un fonctionne pour toi et pas l'autre, et réciproquement. Je me demande si ce n'est pas une question d'interface. Il me semble que tu es sous KDE, et moi Xfce. C'est pas forcément neutre.

OS préféré Mageia, environnements de bureau LXDE et XFCE, CMS préféré SPIP, suite bureautique préférée LibreOffice, logiciel de dessin préféré Inkscape.

Papoteur Membre non connecté

Modérateur Équipe Mageia Administrateur Forgeron

Le 28/09/2023 à 13h45

#316389

Voir le profil du membre Papoteur
Inscrit le : 03/10/2011
Groupes :
Modérateur
Équipe Mageia
Administrateur
Forgeron

Pour gscanpdf, je pense que poppler vient avec Plasma. Je suis avec LXQt et il n'était pas installé par défaut.
C'est peut être aussi un question de dépendance pour OCRFeeder.

Yves

Ysabeau Membre non connecté

Ambassadeur

Le 28/09/2023 à 14h42

#316394

Voir le profil du membre Ysabeau
Inscrit le : 09/08/2015
Site internet
Groupes :
Ambassadeur

Peut-être, mais je ne sais pas quelle dépendance il faudrait pour OCRFeeder. N'importe comment c'est réglé.

En fait pour gscan2pdf j'ai dû installer le paquet tesseract-fra (paquet de données de langue) qui ne l'était pas.

OS préféré Mageia, environnements de bureau LXDE et XFCE, CMS préféré SPIP, suite bureautique préférée LibreOffice, logiciel de dessin préféré Inkscape.

Logiciels / Bureautique

Répondre

Vous n'êtes pas autorisé à écrire dans cette catégorie

Notre Mission	Liens du site	Nous joindre	MLO est hébergé par
MLO est le forum francophone de la distribution Mageia et vous propose également un portail dédié aux débutants. MLO vous apporte un support sur la distribution grâce à son forum et vous offre des nouvelles de la distribution, des logiciels libres et de l'Open Source en général. Notre site a aussi pour but de vous montrer que Mageia est un système d'exploitation complet et facile à prendre en main. Vous apprendrez à installer simplement et à administrer efficacement votre système en un temps record.	Forum Documentation News du libre Mageia	Contacter MLO Mastodon MLO Flux RSS	MLO est un projet soutenu par Nos partenaires et amis
MLO est mis à disposition selon les termes de la licence Creative Commons.