Serveur web, galerie, effet Bytespider ? indexeur IA ! AI crawler ! Comment bien exclure ?

Difficultés, changement d'un motif de l'adresse, veille, Anubis ? Système et matériels / Administration système

Tonin Membre non connecté

Le 25/08/2024 à 10h58

Bonjour,
ma galerie photo a été assaillie de requêtes en mai. Des requêtes qui parcouraient en profondeur la galerie, comme le ferait un moteur de recherche qui indexerait une arborescence foisonnante de pages ; combinant les filtres, et récupérant les images de manière asynchrone. J'interprète ces visites comme étant des requêtes de Bytespider. Certaines étaient signées, d'autres non, mais beaucoup émanaient de la zone géographique SG (ou proche) :

whois 156.59.*.* | grep -Ei CIDR\|route\|Country\|inetnum

tail -f /var/log/httpd/access_log | grep -Ei bytespider\|bytedance

Code BASH :

156.59.*.* - - [25/Aug/2024:07:51:39 +0200] "GET /*/*/*/*-0185-me.jpg HTTP/1.0" 200 37317 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"

tail -f /var/log/httpd/ssl_request_log | grep -Ei bytespider\|bytedance

Code BASH :

 
[11/May/2024:14:30:13 +0200] 47.128.*.* TLSv1.2 ECDHE-RSA-AES256-GCM-SHA384 "GET /robots.txt HTTP/1.1" 200 642 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"
[06/Jun/2024:13:28:45 +0200] 47.128.*.* TLSv1.2 ECDHE-RSA-AES256-GCM-SHA384 "GET /robots.txt HTTP/1.1" 200 701 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"
[10/Jun/2024:05:50:58 +0200] 47.128.*.* TLSv1.2 ECDHE-RSA-AES256-GCM-SHA384 "GET /robots.txt HTTP/1.1" 200 701 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"
[31/Jul/2024:00:37:32 +0200] 47.128.*.* TLSv1.2 ECDHE-RSA-AES256-GCM-SHA384 "GET /robots.txt HTTP/1.1" 200 701 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"
[05/Aug/2024:16:41:43 +0200] 47.128.*.* TLSv1.2 ECDHE-RSA-AES256-GCM-SHA384 "GET /robots.txt HTTP/1.1" 200 701 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"
.../...
[22/Aug/2024:17:52:26 +0200] 47.128.*.* TLSv1.2 ECDHE-RSA-AES256-GCM-SHA384 "GET /robots.txt HTTP/1.1" 200 701 "-" "Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com)"

J'ai réalisé en mai que c'était trop ; du coup, fin mai, je modifiais le fichier robots.txt. Force est de constater que la prise en compte n'est pas immédiate. Alors qu'une ou deux requêtes mensuelles interrogeaient le fichier robots.txt jusqu'en juillet, en août il y en a eu dix.

robots.txt :

cat /var/www/html/robots.txt
# $Id: robots.txt 410967 2009-08-06 19:44:54Z oden $
# $HeadURL: svn+ssh://svn.mandriva.com/svn/packages/cooker/apache-conf/current/SOURCES/robots.txt $
# exclude help system from robots
User-agent: *
Disallow: /manual/
Disallow: /manual-2.2/
Disallow: /addon-modules/
Disallow: /doc/
Disallow: /images/
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: Bytespider
Disallow: /

# the next line is a spam bot trap, for grepping the logs. you should _really_ change this to something else...
Disallow: /all_our_e-mail_addresses
# same idea here...
Disallow: /admin/
# but allow htdig to index our doc-tree
#User-agent: htdig
#Disallow:
# disallow stress test
user-agent: stress-agent
Disallow: /

Comme la prise en compte ne se faisait pas, plusieurs mesures à effet immédiat ont été établies :

liste de bannissement d'adresses IP (une vingtaine d'adresses localisées SG ou autres régions exotiques)
httpd.conf :
```
Require not ip 47.128.0.0/14
```

détections du user-agent

httpd.conf :

<IfModule mod_rewrite.c>
        RewriteEngine On
        RewriteCond %{HTTP_USER_AGENT} Bytespider [NC]
        RewriteRule .* - [F,L]
</IfModule>

httpd.conf :

#SetEnvIfNoCase UserAgent "bytespider" is_bad_robot
BrowserMatchNoCase "bytespider" is_bad_robot
<Directory "/whatever/whatever/whatever">
     AllowOverride All
     Require env not is_bad_robot
#    Require all granted
          <RequireAll>
              Require all granted
              Include conf/banList.conf
          </RequireAll>
</Directory>

détection du referrer (même si ...) combiné à des motifs de requête

httpd.conf :

SetEnvIf Referer "whatever\.whatever\.whatever" localreferrer
<FilesMatch "/whatever/whatever/[^§]+\.(jpg|png|gif)(?<!th\.jpg)$">
#<FilesMatch "\.(jpg|png|gif)$">
    Require env localreferrer
</FilesMatch>
<LocationMatch "/whatever/whatever/whatever.whatever">
        <If "%{QUERY_STRING} =~ m|/whatever/[0-9a-z-]+/[0-9a-z-]+|">
                Require env localreferrer
       </If>
</LocationMatch>

redondance .htaccess

.htaccess :

RewriteCond %{HTTP_USER_AGENT} "=GPTBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "=Bytespider" [NC]
RewriteRule .* - [F,L]
RewriteRule ^whatever/whatever/(.*)(/whatever/)(.*)_whatever.jpg$ whatever.whatever?/whatever/$1$2$3.jpg [L]
RewriteRule ^whatever/whatever/(.*)-whatever.jpg$ whatever.whatever?/whatever/$1-whatever.jpg [L]

Malgré cela, des requêtes reçoivent toujours des réponses 200 du serveur (comme la première de ce message), d'autres reçoivent les codes 403. C'est là que je ne comprends plus. Pourquoi y a-t-il des trous dans ma raquette ? Le fait d'avoir tenté de poser des barrages à plusieurs niveaux (fichiers httpd.conf ou ses déclinaisons) pourrait-il avoir des interférences destructives, éventuellement aussi avec des instructions .htaccess ?

Le bannissement d'adresses IP permet de rejeter de nombreuses requêtes dont l'agent ne contient pas bytespider, et ça fait maintenant trois mois que ça rejette sans discontinuer. Comme l'impression de tenter de résister à l'appétit vorace d'une IA, ou d'un moteur de recherche analphabète (genre alpha très bête).

Contacter spider-feedback pourrait-il avoir un effet (positif) ?
Autre parade radicale : rendre ma galerie privée. Ce ne serait pas trop grave étant donné sa popularité plutôt très confidentielle, mais ô combien moins élégant, tout en déplaçant le problème, ou le transformant.

NB : whatever est un masque différent de l'astérisque * pour ménager la lisibilité des expressions régulières

Édité par Tonin Le 17/04/2025 à 10h29

Mageia 9 ~~8 7 6 5~~ - 64bits - Plasma/KDE - ~~Compiz~~
ASUSTeK H110T - Intel® Core™ i3-6100T 3.20GHz - 8Gio DDR4
Intel Corporation HD Graphics 530 (rev 06)
Intel Corporation Sunrise Point-H HD Audio (rev 31)

>
ante
2017

Mageia 5 - 32bits - LXDE - Compiz ; ... Mandriva ; ... power pack, Mandrake 7.0
MSI KT4AV-L (VIA KT400A) - AMD Athlon(tm) XP 2400+ - 2,25 Gio DDR SDRAM PC3200
AMD/ATI Radeon 9550 (RV350) Nvidia GeForce FX 5200
Ensoniq ES1371 / Creative Labs CT2518/ES1373

Tonin Membre non connecté

Le 17/04/2025 à 10h25

#330367

Ce fil devient une veille, dès fois que d'autres cherchent toujours des alternatives. Quid de Anubis ?

Extrait Pofilo.fr :
[Anubis] Utiliser la preuve de travail pour bloquer les robots

Publié le 14 avril 2025
Outils Open Source Tutoriel Traefik

Bonjour à tous,

Le mois dernier, je vous parlais de mon problème lié aux crawlers d’IA en bloquant l’accès à mon serveur à des pays entiers. Aujourd’hui, je vais vous montrer comment j’ai mis en place Anubis avec Traefik pour réussir à ne bloquer (que ?) les crawlers et les bots.
Contexte

Mon instance Gitea, comme toutes les forges logicielles publiques, se fait tabasser par les robots scannant ce genre d’outils pour “améliorer/nourrir” des IA. Dans un monde idéal (et j’en parlais dans mon dernier article), le fichier robots.txt est respecté et aucun abus n’a lieu, fin de l’histoire. Sauf que dans le monde de l’IA, on se fout des règles, on se fout de tout. Il suffit de voir ce genre d’article dont le titre est littéralement:

OpenAI dit que :
c’est fini s’ils ne peuvent pas voler les contenus Copyrightés

Donc on ne respecte pas ce fichier, et on tabasse tout le monde pour faire la course à qui a la plus grosse (IA).

Le billet complet : https://www.pofilo.fr/post/2025/04/14-mise-en-place-anubis/

via https://piaille.fr/deck/@matiu_bidule@mamot.fr/114351582085456976

>
ante
2017

Tonin Membre non connecté

Le 17/04/2025 à 11h39

#330368

Quelques menues nouvelles tout de même. Pendant ce temps là, alors que d'incivilisés robots continuent d'interroger les vieilles adresses de ma galerie en écoutant des réponses 403 sans fléchir, je me dit que la courbe d'apprentissage est très mauvaise, ou alors la bête aussi opiniâtre que d'autres essuyant des réponses 404 en fouinant çà et là. Ça fait partie du bruit ambiant.

Anecdotique ? Il y eu un jour la visite d'une page présentant l'arborescence des mots clés de la galerie (plus d'un millier de mots catégorisés). Je ne sais interpréter ce que jaugeaient les quatorze subtiles variations de la requête GET. Certaines portions de chaînes ont été anonymisés.

[06/Apr/2025:10:58:15 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:32 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:34 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:35 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galErIe/arbOReScence,)\\ HTTP/1.1" 404 1197 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:35 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galeRie/arborEscence\\ HTTP/1.1" 404 1197 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:35 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "8271"

[06/Apr/2025:10:58:36 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0/**/(X11;/**/U;/**/Linux/**/x86_64;/**/en-US;/**/rv:1.9)/**/Gecko/2008062908/**/Firefox/3.0/**/(Debian-3.0~rc2-2)(\"'.,,,),)"

[06/Apr/2025:10:58:37 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0/**/(X11;/**/U;/**/Linux/**/x86_64;/**/en-US;/**/rv:1.9)/**/Gecko/2008062908/**/Firefox/3.0/**/(Debian-3.0~rc2-2)'cgVZoM<'\">FRzLkn"

[06/Apr/2025:10:58:38 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "8674" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:39 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referRer.url/..'\"..)())" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:40 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referREr.url/'CmYYzR<'\">dNgRLv" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:40 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:41 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

[06/Apr/2025:10:58:42 +0200] 141.98.11.222 TLSv1.3 TLS_AES_256_GCM_SHA384 "GET /galerie/arborescence HTTP/1.1" 200 215998 "http://same-referrer.url/" "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko/2008062908 Firefox/3.0 (Debian-3.0~rc2-2)"

>
ante
2017

Répondre

Vous n'êtes pas autorisé à écrire dans cette catégorie

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Arch	Machine	OS
x86_64	lenovo x250	mga9
armv7hl	bananapro	mga9
aarch64	Raspberry Pi 4B	mga9

Notre Mission	Liens du site	Nous joindre	MLO est hébergé par
MLO est le forum francophone de la distribution Mageia et vous propose également un portail dédié aux débutants. MLO vous apporte un support sur la distribution grâce à son forum et vous offre des nouvelles de la distribution, des logiciels libres et de l'Open Source en général. Notre site a aussi pour but de vous montrer que Mageia est un système d'exploitation complet et facile à prendre en main. Vous apprendrez à installer simplement et à administrer efficacement votre système en un temps record.	Forum Documentation News du libre Mageia	Contacter MLO Mastodon MLO Flux RSS	MLO est un projet soutenu par Nos partenaires et amis
MLO est mis à disposition selon les termes de la licence Creative Commons.

Tonin Membre non connecté

Jybz Membre non connecté

vouf Membre non connecté

Tonin Membre non connecté

Tonin Membre non connecté

Tonin Membre non connecté

Tonin Membre non connecté

Papoteur Membre non connecté

Jybz Membre non connecté

Tonin Membre non connecté

Jybz Membre non connecté