subtitleripper [Réglé]
subtitleripper n'existe plus sous Mga9 ?
Retours d'expériences

Papoteur Membre non connecté
-
- Voir le profil du membre Papoteur
- Inscrit le : 03/10/2011
- Groupes :
-
Modérateur
-
Équipe Mageia
-
Administrateur
-
Forgeron
Reprise du message précédent
artenaki :Oui, Ubuntu a de bons modèles (au moins pour la Russie). Copiez-les vous-même. Si vous n'êtes pas satisfait de la qualité de la reconnaissance srt.
Pour le tesseract 5 :
urpmi tesseract-fra
https://packages.ubuntu.com/noble/all/tesseract-ocr-fra/download (24.04)
/usr/share/tesseract-ocr/5/tessdata/fra.traineddata
VV
/usr/share/tessdata/fra.traineddata (Mageia 9)
A priori, la version de Ubuntu est la 4.1.0 en ce qui concerne les données, la même que celle de Mageia, et la dernière disponible sur github ...
Alors je ne comprends pas pourquoi ce changement pourrait améliorer les choses.
https://github.com/tesseract-ocr/tessdata
Yves

Visiteur
Visiteur
Je recommande généralement openSUSE Tumbleweed, car les sous-titres créés sous Ubuntu ont 1 erreur.

Papoteur Membre non connecté
-
- Voir le profil du membre Papoteur
- Inscrit le : 03/10/2011
- Groupes :
-
Modérateur
-
Équipe Mageia
-
Administrateur
-
Forgeron
artenaki :Je ne sais pas. C'est mystique.
Bonjour,
Je ne suis pas convaincu par cette explication

Yves

Visiteur
Visiteur
Voici les résultats des tests :
subs-suse-almost-ubuntu.srt
subs-mageia9.srt
original-sub.zip
Code :
./vobsub2srt-mageia9 --ifo ./VTS_01_0.IFO --tesseract-lang rus subs
vobsub2srt binaire
Édité par Visiteur Le 11/10/2024 à 18h58

Visiteur
Visiteur
https://github.com/elizagamedev/vobsubocr
Citation :L'outil le plus comparable à vobsubocr est VobSub2SRT, mais vobsubocr a un résultat nettement meilleur, en particulier pour les langues autres que l'anglais, principalement parce que VobSub2SRT ne fait pas beaucoup de prétraitement de l'image avant de l'envoyer à Tesseract. Par exemple, Tesseract 4.0 attend un texte noir sur fond blanc, ce que VobSub2SRT ne garantit pas, contrairement à vobsubocr. En outre, vobsubocr divise chaque ligne en images séparées pour tirer parti de la méthode de segmentation de page 7, qui améliore considérablement la précision des langues autres que l'anglais en particulier.
La documentation officielle sur la manière d'améliorer la précision des résultats de Tesseract peut être consultée ici.

Visiteur
Visiteur
https://github.com/elizagamedev/vobsubocr
https://github.com/elizagamedev/vobsubocr/issues/27 > https://github.com/gwen-lg/subtile-ocr
Dans Opensuse Tumbleweed (Docker). Ils ne fonctionnent pas.
Le problème est que l'idx/dub créé par mplayer/mencoder ne contient pas les informations de palette (vobsub2srt pourrait les prendre dans le fichier IFO, mais seulement vobsub2srt).
J'ai inséré
palette: 000000, f0f0f0, cccccc, 999999, 3333fa, 1111bb, fa3333, bb1111, 33fa33, 11bb11, fafa33, bbbb11, fa33fa, bb11bb, 33fafa, 11bbbb
dans le fichier idx et l'erreur dans vobsubocr/subtile-ocr a disparu, mais le srt a été créé vide (taille zéro).
Il est évident que ces couleurs ne sont pas correctes.
Donc, les idx/sub doivent contenir une palette si vous voulez les traiter dans vobsubocr ou subtile-ocr, ce qui signifie que pour extraire les idx/sub vous devrez trouver un autre outil au lieu de mplayer/mencoder.
Comme je le vois dans le post ici https://github.com/elizagamedev/vobsubocr/issues/24 , mplayer ne crée pas de palettes même s'il ouvre le DVD via -dvd-device dvd://, et pas seulement les fichiers VOB directement.
Plus précisément, il crée des VOB. Peut-être qu'en travaillant avec des DVD directement, la palette sera utilisée.
Au lieu de mplayer, je vais essayer MakeMKV + MKVToolnix + mkvextract et je vous ferai part des résultats.
Édité par Visiteur Le 11/10/2024 à 22h46

Visiteur
Visiteur
1. MakeMKV (+ mkvextract de MKVToolnix) crée une palette https://forum.makemkv.com/forum/viewtopic.php?f=3&t=224
2. vobsubocr est légèrement moins bon que subtile-ocr (son fork) [Rust]
3. Après le mencoder, le sous-titre a un timing incorrect (désynchronisé avec la vidéo, peut-être mal interprété à 25-50 fps à cause de l'entrelacement, mais je n'ai pas cherché). MakeMKV a un timing correct.
4. La comparaison entre subtile-ocr et vobsub2srt est ambiguë. subtile-ocr corrige quelques fautes de frappe, mais déforme les mots inconnus. vobsub2srt ne traite pas la déformation des mots inconnus. Mais je n'avais qu'une vidéo de 10 minutes à tester.
Mon choix : MakeMKV + mkvextract (du paquet MKVToolnix) + vobsub2srt (dans openSUSE Tumbleweed).

Visiteur
Visiteur
dvd (makemkv) > mkv > mkvextract - OK
dvd (makemkv) > mkv > ffmpeg (mkv) - mkvextract - OK
dvd (makemkv) > mkv > MKVToolnix (mkv) - mkvextract - OK
Malheureusement, mencoder comporte de nombreux bogues.
En ce qui concerne la synchronisation, c'est peut-être la faute de ffmpeg, de ses options -fflags +genpts -fflags +igndts
Comme mencoder a extrait les idx/sub de la VOB que ffmpeg a préparé.
Si vous n'utilisez pas d'applications Rust, vous n'avez pas besoin de la palette et vous pouvez vous contenter de mencoder, mais soyez attentif.
Édité par Visiteur Le 12/10/2024 à 00h47

Visiteur
Visiteur
Même avec cette commande directe dvd > idx/sub :
Code :
mencoder -dvd-device '/path/to/DVD/VIDEO_TS' dvd://1 -vobsubout subs -vobsuboutindex 0 -ovc copy -oac copy -o /dev/null
mencoder est mauvais, MakeMKV est bon.
Répondre
Vous n'êtes pas autorisé à écrire dans cette catégorie