Raccourcissement de longues lignes

Visiteur

Le 17/04/2024 à 06h01

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Bonjour,
Je souhaite raccourcir les longues lignes d'un fichier texte. Une ligne doit contenir au maximum 413 caractères. Je dois donc insérer des sauts de ligne. Le texte est une fiction (livre).
Conseillez-moi un code python ou bash.

Édité par Visiteur Le 17/04/2024 à 06h03

Jybz Membre non connecté

Administrateur Forgeron

Le 17/04/2024 à 06h08

#323658

Voir le profil du membre Jybz
Inscrit le : 10/10/2018
Groupes :
Administrateur
Forgeron

Non testé:

Code BASH :

sed -E 's/(.{413})/\1\n/g' ./text-original >./copie-tronquee

Téléverser une image : /wiki/hebergement-de-fichiers-sur-mlo

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Jybz Membre non connecté

Administrateur Forgeron

Le 17/04/2024 à 06h24

#323659

Voir le profil du membre Jybz
Inscrit le : 10/10/2018
Groupes :
Administrateur
Forgeron

Seconde version testée et ne coupant pas dans les mots de moins de 20 caractères :

Code BASH :

sed -E 's/(.{393,413}) /\1\n/g' <./text-original >./copie-tronquee

Téléverser une image : /wiki/hebergement-de-fichiers-sur-mlo

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Visiteur

Le 18/04/2024 à 02h06

#323688

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Merci Jybz, le deuxième exemple est bon. Est-il possible de faire en sorte que les phrases (sentences) ne se cassent pas ? C'est à dire que line breaks ne se fassent qu'après un point (ou une virgule).

Jybz Membre non connecté

Administrateur Forgeron

Le 18/04/2024 à 02h31

#323690

Voir le profil du membre Jybz
Inscrit le : 10/10/2018
Groupes :
Administrateur
Forgeron

Difficile…
Que donnes :

Code BASH :

sed -E 's/(.{353,412}[,\.!\?;])/\1\n/g' <./text-original | sed -E 's/(.{393,413}) /\1\n/g' >./copie-tronquee

Au premier sed on cherche entre 353 et 412 caractères quelconque suivit d'une ponctuation, on remplace par lui même en ajoutant un \n et on continue la ligne (g). Le second sed coupe les lignes qui sont toujours trop longues (au cas où de 353 à 412 il n'y avait aucune ponctuation).

Téléverser une image : /wiki/hebergement-de-fichiers-sur-mlo

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Visiteur

Le 18/04/2024 à 06h56

#323693

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Merci Jybz, oui, c'est difficile. Ton code fonctionne presque très bien. Malheureusement, il y a parfois un saut de ligne au milieu d'une phrase. Par exemple, les lignes 121 et 122 dans le fichier output.txt.
input.txt
output.txt

Code :


Название комната получила ...
пройти.

Je constate que dans ce cas, seul un mot est reporté à la ligne suivante, même si, sans la correction, le nombre de caractères serait inférieur à 413.

Édité par Visiteur Le 18/04/2024 à 06h57

Visiteur

Le 18/04/2024 à 13h05

#323698

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Je n'ai pas beaucoup de chance avec ce code. Je ne trouve nulle part une solution qui fonctionne à 100 %, bien que la logique soit assez simple :(

Édité par Visiteur Le 18/04/2024 à 14h43

Jybz Membre non connecté

Administrateur Forgeron

Le 18/04/2024 à 20h11

#323702

Voir le profil du membre Jybz
Inscrit le : 10/10/2018
Groupes :
Administrateur
Forgeron

Je vois le bug.

Téléverser une image : /wiki/hebergement-de-fichiers-sur-mlo

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Visiteur

Le 19/04/2024 à 11h33

#323714

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Jybz, tu es mon dernier espoir. La seule chose que j'ai trouvée, c'est du code en php. Mais je ne sais pas comment l'utiliser.
https://stackoverflow.com/questions/34595373/make-auto-line-breaks-in-a-long-text-take-care-of-sentences

Citation :
A sentence should not be broken. Only line break after dots.

C'est ce que je veux.

Et la différence, c'est que php a des mots, alors que j'ai besoin de caractères (413).

Édité par Visiteur Le 19/04/2024 à 11h36

Jybz Membre non connecté

Administrateur Forgeron

Le 19/04/2024 à 12h40

#323716

Voir le profil du membre Jybz
Inscrit le : 10/10/2018
Groupes :
Administrateur
Forgeron

Il faut ajouter un filtre.

Non testé :

Code BASH :

sed -E '/.{413}.+/s/(.{353,412}[,\.!\?;])/\1\n/g' <./text-original | sed -E '/.{413}.+/s/(.{393,413}) /\1\n/g' >./copie-tronquee

Il y a encore un bug. Je ne sais pas "revenir en arrière" depuis le 413e caractère.

On devrait enrober les script sed dans une boucle et ne pas utiliser l'option globale g.

Téléverser une image : /wiki/hebergement-de-fichiers-sur-mlo

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Papoteur Membre non connecté

Modérateur Équipe Mageia Administrateur Forgeron

Le 19/04/2024 à 14h05

#323718

Voir le profil du membre Papoteur
Inscrit le : 03/10/2011
Groupes :
Modérateur
Équipe Mageia
Administrateur
Forgeron

Bonjour,
Voici ma proposition en Python

Code PYTHON :

import textwrap
 
with open("input.txt", "r") as f:
    output = ""
    for l in f.readlines():  # text splited by lines
        output = "\n".join([output, textwrap.fill(l, width=413)]) # adding to the output the wrapped new line
with open("output.txt", "w") as o:
    o.write(output)

Yves

Visiteur

Le 19/04/2024 à 14h36

#323719

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Jybz
Ce code fonctionne mieux.
Peux-tu faire des sauts de ligne seulement après les "points, ? et !" et pas après les virgules ?
Parce que le texte est envoyé au convertisseur text-to-speech, qui travaille avec lines (il ne connaît pas le contenu des lignes précédentes et suivantes). C'est pourquoi je veux conserver le sentences. Sinon, le son ne sera pas naturel.
Les sauts de ligne après les virgules ne sont pas si mal, cependant. Mais pas très bon.

Papoteur
Ton code fonctionne, mais il casse les phrases (sentences), malheureusement.

Visiteur

Le 19/04/2024 à 18h48

#323723

Visiteur
Voir le profil du membre
Inscrit le : 21/07/2026

Logique :
1. Vérifier le nombre de caractères de la ligne
2. S'il y a plus de 413 caractères, revenir au point (ou ? ! optional mais pas ,) le plus proche à gauche et insérer un saut de ligne après celui-ci.

Papoteur Membre non connecté

Modérateur Équipe Mageia Administrateur Forgeron

Le 19/04/2024 à 20h30

#323726

Voir le profil du membre Papoteur
Inscrit le : 03/10/2011
Groupes :
Modérateur
Équipe Mageia
Administrateur
Forgeron

Un autre essai. Il faut installer le rpm python3-nltk

Code PYTHON :

from nltk.tokenize.punkt import PunktSentenceTokenizer
import textwrap
pst = PunktSentenceTokenizer()
with open("input.txt", "r") as f:
    output = ""
    for l in f.readlines():
        chunk = ""
        sentences = pst.tokenize(l)
        for sentence in sentences:
            output = "\n".join([output, textwrap.fill(sentence, width=413)])
with open("output.txt", "w") as o:
    o.write(output)

J'ai mis une phrase par ligne. Ce n'est pas ce qui est demandé, je sais, mais peut-être que ça convient.

Yves

Eric David Petit Membre non connecté

Forgeron

Le 19/04/2024 à 20h47

#323728

Voir le profil du membre Eric David Petit
Inscrit le : 01/01/2020
Groupes :
Forgeron

et si tu l'import ou copi/colle dans libreoffice calc et que tu choisit les bon séparateur?

Logiciels / Programmation

Répondre

Vous n'êtes pas autorisé à écrire dans cette catégorie

Notre Mission	Liens du site	Nous joindre	MLO est hébergé par
MLO est le forum francophone de la distribution Mageia et vous propose également un portail dédié aux débutants. MLO vous apporte un support sur la distribution grâce à son forum et vous offre des nouvelles de la distribution, des logiciels libres et de l'Open Source en général. Notre site a aussi pour but de vous montrer que Mageia est un système d'exploitation complet et facile à prendre en main. Vous apprendrez à installer simplement et à administrer efficacement votre système en un temps record.	Forum Documentation News du libre Mageia	Contacter MLO Mastodon MLO Flux RSS	MLO est un projet soutenu par Nos partenaires et amis
MLO est mis à disposition selon les termes de la licence Creative Commons.