Connexion

Forum

Logiciels » Bureautique gscan2pdf et ocr

moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 27/11/2018 à 22h27
Bonsoir,

pour effectuer de la reconnaissance de caractères j'utilise gscan2pdf associé avec tesserac . ça fonctionne assez bien .

j'ai juste un petit soucis , quand j'essaie d'exporter le document en fichier texte , je perds la mise en page . La seule exportation qui fonctionne est l'extension .hocr qui s'ouvre dans firefox et qui me donne la bonne mise en page , mais de nouveau à partir de là je suis bloqué .

une idée de comment exporter en fichier texte et en gardant la mise en page ?

Merci .
   
magnux77 Membre non connecté

Rang

Avatar

Inscrit le : 21/09/2009 à 11h49

Localisation : Champs-sur-Marne France

Messages: 5066

Le 28/11/2018 à 00h05
moment magnétique :
pour effectuer de la reconnaissance de caractères j'utilise gscan2pdf associé avec tesserac . ça fonctionne assez bien .
C'est pas mal, ça. J'avais essayé il y a longtemps et j'avais fini par abandonner. Mériterait pas pas un petit tuto ?..

moment magnétique :
quand j'essaie d'exporter le document en fichier texte , je perds la mise en page
Ben, ça me semble normal. Tesseract extrait du texte à partir d'une image, mais du texte txt, c'est à dire sans mise en forme aucune. Si tu veux de la mise en forme, il faut envoyer ton txt dans Libre Office.
Code BASH :
 
echo "Toto" > toto.txt ; soffice --writer toto.txt &


Edité par magnux77 Le 28/11/2018 à 00h22


...depuis Mandrake 7
Membre de l'April - « promouvoir et défendre le Logiciel Libre»
Soutien Framasoft - « Changer le monde, un octet à la fois»
Config n°1 : cpu=AMD64x6 mem=16G SSD=64G HDD=1T OS=Mageia7-64 DE=Xfce, Config n°2 : Dell Latitude E6410 SSD=120G OS=Mageia7 DE=Xfce, Config n°3 : ThinkpadR40 SSD=32G OS=[Manjaro, Parabola, Mageia6] DE=Xfce, Config n°4 : EeePC901 SSD=20Gb, OS=[SliTaz5/Lxde, Mageia6/Xfce]
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 09h50
magnux77 :
C'est pas mal, ça. J'avais essayé il y a longtemps et j'avais fini par abandonner. Mériterait pas pas un petit tuto ?..



jusqu'à hier je ne connaissais pas , c'est quelqu'un à qui j'ai installé mageia qui m'a demandé si etc . J'ai essayé plusieurs solution xsane , cuneiform et puis finalement gscan2pdf . des trois gscan2pdf est celui qui donne les meilleurs résultats . J'ai trouvé le tuto ici https://doc.ubuntu-fr.org/gscan2pdf :happy1:

magnux77 :

moment magnétique :
quand j'essaie d'exporter le document en fichier texte , je perds la mise en page
Ben, ça me semble normal. Tesseract extrait du texte à partir d'une image, mais du texte txt, c'est à dire sans mise en forme aucune. Si tu veux de la mise en forme, il faut envoyer ton txt dans Libre Office.
Code BASH :
 
echo "Toto" > toto.txt ; soffice --writer toto.txt &




Que ce soit kwrite ou libreoffice , il y a mise en page , au moins les espaces et retour chariot . Si j'enregistre avec gscan2pdf en format .hocr le résultat du ROC et qu'on ouvre sous firefox ce fichier .hocr , il y a mise en page et même plutôt une bonne mise en page par rapport au document d'origine scanné . Il doit bien y avoir moyen de convertir une mise en page d'un fichier .hocr en mise en page d'un fichier . odt non ?
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 10h45


J'ai trouvé une solution temporaire ,qui donne un résultat pas trop mauvais ,mais pour l'expliquer par télephone ...

une fois le document scanné et la reconnaissance effectuée , on enregistre en fichier .hocr ( ce qui donne le meilleur résultat de mise en page ) . On ouvre le fichier .hocr sous firefox et ensuite on imprime en fichier .pdf ( fichier => imprimer ) . Ensuite on ouvre le fichier .pdf avec okular et on exporte en texte brut . Et là si on ouvre sous kwrite ou libre office la mise en page du document d'origine est à peu près respectée .

vu la complication pour enregistrée en fichier texte tout en gardant un minimum de mise en page , je suis en train de me poser la question suivante .

ça sert à quoi un logiciel de reconnaissance de caractère qui ne permet pas par défaut d'enregistrer en fichier .odt ou .txt ? ou autrement posée quelle était l'idée à l'origine de ceux qui ont crée des logiciel qui font de la ROC ?
   
magnux77 Membre non connecté

Rang

Avatar

Inscrit le : 21/09/2009 à 11h49

Localisation : Champs-sur-Marne France

Messages: 5066

Le 28/11/2018 à 10h49
moment magnétique :
Que ce soit kwrite ou libreoffice , il y a mise en page , au moins les espaces et retour chariot
Non.
Kwrite est un éditeur de texte pur, un notepad, que les caractères, y compris l'espace et le retour chariot (pour fin de ligne) pas de choix police de caractères, d'interligne, de marges, etc, contrairement à LibreOffice. Pour t'en convaincre, essaie la comparaison suivante :
1° lancer Kwrite, y écrire "toto", sauver le fichier toto.txt
2° lancer LibreOffice, y écrire "toto", sauver le fichier toto.odt
En console, un petit ll
Code BASH :
[jps@amd664 ~]$ ll toto.*
-rw-r--r-- 1 jps jps 8002 nov.  28 10:18 toto.odt
-rw-r--r-- 1 jps jps    4 nov.  28 10:17 toto.txt
[jps@amd664 ~]$ 
Tu vois la différence de taille ?

moment magnétique :
]La seule exportation qui fonctionne est l'extension .hocr qui s'ouvre dans firefox
Normal, Firefox affiche tous les XML.

Sur la doc que tu cites, cet extrait
Citation :
Lorsque le travail de ROC est terminé, on peut copier/coller le texte de chaque page, une par une. Mais c'est un peu laborieux. On peut aussi tout simplement enregistrer le travail courant au format txt, ce qui a pour effet de concaténer toutes les pages en un seul fichier, qui pourra être retravaillé avec LibreOffice.


Enfin il me semble plus simple et plus sûr, post OCR, de partir d'un texte pur, sans mise en forme : .txt pour le mettre en forme que d'envisager une transcodification de mise en forme hocr-> odt (même si les 2 reposent sur du XML).

Il y a aussi LibreOCR Mais je ne sais pas ce que ça vaut.




...depuis Mandrake 7
Membre de l'April - « promouvoir et défendre le Logiciel Libre»
Soutien Framasoft - « Changer le monde, un octet à la fois»
Config n°1 : cpu=AMD64x6 mem=16G SSD=64G HDD=1T OS=Mageia7-64 DE=Xfce, Config n°2 : Dell Latitude E6410 SSD=120G OS=Mageia7 DE=Xfce, Config n°3 : ThinkpadR40 SSD=32G OS=[Manjaro, Parabola, Mageia6] DE=Xfce, Config n°4 : EeePC901 SSD=20Gb, OS=[SliTaz5/Lxde, Mageia6/Xfce]
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 11h02
magnux77 :

moment magnétique :
]La seule exportation qui fonctionne est l'extension .hocr qui s'ouvre dans firefox
Normal, Firefox affiche tous les XML.

Sur la doc que tu cites, cet extrait
Citation :
Lorsque le travail de ROC est terminé, on peut copier/coller le texte de chaque page, une par une. Mais c'est un peu laborieux. On peut aussi tout simplement enregistrer le travail courant au format txt, ce qui a pour effet de concaténer toutes les pages en un seul fichier, qui pourra être retravaillé avec LibreOffice.


Enfin il me semble plus simple et plus sûr, post OCR, de partir d'un texte pur, sans mise en forme : .txt pour le mettre en forme que d'envisager une transcodification de mise en forme hocr-> odt (même si les 2 reposent sur du XML).



C'est ce que j'ai essayé de faire au début , mais quand j'ouvre le fichier texte j'ai juste une colonne de mot . En gros il me transforme tout les espaces qui existent entre chaque mots en retour chariot .

je conçois qu'il y ait un minimum de travail pour réeffectuée une mise en page mais là autant recopier à la main le document d'origine plutôt que de scanner . :happy1:


magnux77 :



Il y a aussi LibreOCR Mais je ne sais pas ce que ça vaut.




Merci je vais tester .

Edité par moment magnetique Le 28/11/2018 à 11h03
   
jagodyn Membre non connecté

Rang

Avatar

Inscrit le : 25/11/2018 à 10h52

Localisation : Bordeaux

Messages: 59

Le 28/11/2018 à 11h12
Intéressant comme sujet ! Je vais me garder ça sous le coude :-)


Carte Mère Asus B150M-A/M.2 CPU Intel i3 6100 2C/4T, 3,70GHz GPU Nvidia GTX 1050 Système Mageia 6.1 KDE Plasma
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 11h13
magnux77 :

Il y a aussi LibreOCR Mais je ne sais pas ce que ça vaut.





je n'ai pas trouvé libreocr dans le gestionnaire de logiciel mais j'ai trouvé OCRfeeder qui fonctionne à partir d'un fichier pdf ou d'un scan direct et qui exporte directement en fichier .odt !!! :super:

la reconnaissance ainsi que la mise en page est vraiment superbe par rapport à l'original . Je suis sauvé ça va être plus simple à expliquer :gene:

Edité par moment magnetique Le 28/11/2018 à 11h16
   
magnux77 Membre non connecté

Rang

Avatar

Inscrit le : 21/09/2009 à 11h49

Localisation : Champs-sur-Marne France

Messages: 5066

Le 28/11/2018 à 13h12
moment magnétique :
quand j'ouvre le fichier texte j'ai juste une colonne de mot
Si tu l'avais expliqué dès le départ, ça aurait été plus clair pour nous, lecteurs...

moment magnétique :
j'ai trouvé OCRfeeder qui fonctionne à partir d'un fichier pdf ou d'un scan direct et qui exporte directement en fichier .odt !!! la reconnaissance ainsi que la mise en page est vraiment superbe par rapport à l'original
Bon, ne faisons pas la fine bouche, la solution est dans Mageia. ;-) Mais si elle avait été documentée, ça aurait été mieux. Alors bon, un petit geste, un tuto succint LibreOffice = OCR => OCRfeed dans les dépôts.

moment magnétique :
Je suis sauvé ça va être plus simple à expliquer
C'est effectivement très important, y a pas que le technique.


...depuis Mandrake 7
Membre de l'April - « promouvoir et défendre le Logiciel Libre»
Soutien Framasoft - « Changer le monde, un octet à la fois»
Config n°1 : cpu=AMD64x6 mem=16G SSD=64G HDD=1T OS=Mageia7-64 DE=Xfce, Config n°2 : Dell Latitude E6410 SSD=120G OS=Mageia7 DE=Xfce, Config n°3 : ThinkpadR40 SSD=32G OS=[Manjaro, Parabola, Mageia6] DE=Xfce, Config n°4 : EeePC901 SSD=20Gb, OS=[SliTaz5/Lxde, Mageia6/Xfce]
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 14h52
magnux77 :
Alors bon, un petit geste, un tuto succint LibreOffice = OCR => OCRfeed dans les dépôts.


je veux bien rédiger un petit tuto ( si c'est bien la question ) mais j'ai besoin d'un tuto qui explique comment faire un tuto pour mageia :gene:

une petit lien où je pourrais rédiger ce tuto ?

   
cmoifp Membre non connecté

Rang

Avatar

Inscrit le : 01/01/2013 à 18h41

Messages: 934

Le 28/11/2018 à 18h55
Pourquoi pas sur le wiki mageia. Il y a une petite procédure à suivre, mais c’est enrichissant et constructif.

Bien à toi.


Carte Mère MSI FM2 A75MA E35
Processeur socket FM2 AMD A4-5300 AMD Radeon HD 7480D Graphics, 2 coeurs, 3,40 GHz
   
stroibe974 Membre non connecté

Rang

Avatar

Modérateur

Inscrit le : 13/08/2018 à 16h22

Localisation : Réunion

Messages: 1012

Le 28/11/2018 à 19h36
moment magnetique :

je veux bien rédiger un petit tuto ( si c'est bien la question ) mais j'ai besoin d'un tuto qui explique comment faire un tuto pour mageia :gene:

une petit lien où je pourrais rédiger ce tuto ?


Alors le tuto peut être écrit sur le wiki Documentation de Mageia, qui existe aussi en version française ;-)

Et le tuto qui explique comment écrire un tuto, ben ça n'existe pas vraiment, mais il y a quand-même quelques indications pour apprendre à apprivoiser le wiki ! :hehe:


Mageia 7 (64bits) - Plasma - Intel Core i7-8700K @ 3.70Ghz - 16Go RAM
frenchmageiauser_9c2c8
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 20h44


ok , je m'en occupe ce week end

Merci à tous :super:
   
moment magnetique Membre non connecté

Rang

Avatar

Inscrit le : 06/10/2012 à 14h44

Messages: 212

Le 28/11/2018 à 21h00


juste une précision , c'est pas pour déprimer , mais après 1h30 passer au téléphone , comme le résultat ne convenait pas à la personne , je lui ai demandé de m'envoyer par mail une image du scan pour voir de mon coté . Donc ce n'est pas du texte brut avec un peu de mise en page , mais des factures , donc retour à la case départ pour moi car impossible d'avoir un résultat correct sous forme de tableur :happy1:



quand on voit un document quelconque , on se dit mais pourtant ça devrait être simple , ça à la tête d'un tableau donc il doit me sortir un fichier qui s'ouvre sous calc , ça à la tete d'un texte donc il doit me sortir un fichier qui s'ouvre sous writer , ça mixe les deux avec des graphique des courbes donc il doit me sortir un fichier qui s'ouvre sous office avec la bonne mise en page .... et même si ça donne la bonne forme après il faut s'y connaitre en traitement de texte et mise en page ( ce qui n'est pas mon cas ) . Pas évident mine de rien l'informatique quand on gratte un peu le vernis du clicodrome. :intello:
   
Papoteur Membre non connecté

Rang

Avatar

Modérateur Équipe Mageia

Inscrit le : 03/10/2011 à 22h16

Localisation : Metz

Messages: 6809

Le 29/11/2018 à 09h01
Ouf, j'ai l'impression que tu as mis le doigt dans un engrenage. :gene5:
A quoi ça sert d'avoir une facture passée à la ROC ?
Je ne pose pas la question pour le renvoyer dans ses cordes, mais réellement pour faire exprimer le besoin réel, qui m'a l'air très pointu. A coup sûr, rien de standard ne permet d'y répondre.


Yves
   
Répondre
Vous n'êtes pas autorisé à écrire dans cette catégorie