Cum oprești crawling-ul agresiv

Cum oprești crawling-ul agresiv din partea boților

23 august 2025
Firma SEO
Optimizare, Știri SEO

Cum oprești crawling-ul agresiv din partea boților. Crawling-ul agresiv al boților reprezintă o amenințare serioasă pentru stabilitatea și performanța website-urilor SEO.

Prin blocarea IP-urilor, setarea unor reguli stricte în server și utilizarea uneltelor de monitorizare, puteți preveni consumul abuziv de resurse și proteja buna funcționare a website-ului dumneavoastră.

Cum oprești crawling-ul agresiv?

1. Ce este crawling-ul agresiv?

Crawling-ul agresiv apare atunci când boții, legitimi sau malițioși, accesează în mod repetat și excesiv paginile unui website într-un interval scurt.

Acest comportament consumă resurse semnificative ale serverului și poate afecta performanța generală, inclusiv timpii de răspuns și scorurile SEO.

2. Efectele negative ale crawling-ului excesiv

Încetinirea timpului de încărcare al paginilor
Suprasolicitarea CPU-ului și memoriei serverului
Creșterea costurilor pentru găzduire și bandă
Blocarea temporară a accesului crawlerilor legitimi (Googlebot)

3. Identificarea boților agresivi

Pentru a identifica boții care cauzează probleme, analizați fișierele log ale serverului:

Apache: /var/log/apache2/access.log
Nginx: /var/log/nginx/access.log

Căutați adrese IP cu un număr foarte mare de cereri într-un timp scurt sau user-agent neobișnuit.

4. Limitarea crawling-ului cu fișierul robots.txt

Fișierul robots.txt poate interzice accesul anumitor boți:

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

Această metodă funcționează doar pentru boții care respectă regulile robots.txt.

5. Blocarea IP-urilor agresive din server

Puteți bloca IP-urile sau rețelele suspecte direct din firewall:

UFW: sudo ufw deny from 192.168.1.100
iptables: sudo iptables -A INPUT -s 192.168.1.100 -j DROP
CSF: csf -d 192.168.1.100

6. Limitarea ratelor de acces cu mod_evasive sau rate limiting

Pentru servere Apache, instalați și configurați mod_evasive:

Detectează și blochează rapid accesul excesiv
Poate trimite emailuri de alertă și bloca IP-ul temporar

Pe Nginx, puteți utiliza limit_req pentru a impune un număr maxim de cereri:

limit_req_zone $binary_remote_addr zone=req_limit_per_ip:10m rate=1r/s;

server {
  location / {
    limit_req zone=req_limit_per_ip burst=5;
  }
}

7. Utilizarea .htaccess pentru blocare rapidă

În cazul unui website pe Apache, puteți bloca boți pe baza user-agentului:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(AhrefsBot|SemrushBot|MJ12bot).* [NC]
RewriteRule .* - [F,L]

8. Monitorizarea permanentă cu Fail2Ban

Fail2Ban poate fi configurat pentru a analiza fișierele log și a bloca automat IP-urile care depășesc un anumit număr de cereri într-un timp definit.

Este eficient împotriva atacurilor brute force, dar și împotriva crawlere-lor agresive.

9. Limitarea accesului la sitemap.xml

Boții agresivi pot accesa fișierele sitemap în mod repetat. Puteți restricționa acest lucru prin reguli în .htaccess sau robots.txt:

User-agent: *
Disallow: /sitemap.xml

Aceasta nu afectează indexarea de către Google dacă sitemap-ul este trimis manual prin Search Console.

10. Verificarea impactului în Google Search Console

Accesați Google Search Console → Setări → Rată de accesare.

Aici puteți analiza activitatea crawlerului Google și, dacă este necesar, solicitați o limitare temporară a crawlării.