Automatizarea redirectărilor masive cu script Bash. Automatizarea redirectărilor masive cu ajutorul unui script Bash reprezintă…

Cum oprești crawling-ul agresiv
Cum oprești crawling-ul agresiv din partea boților
Cum oprești crawling-ul agresiv din partea boților. Crawling-ul agresiv al boților reprezintă o amenințare serioasă pentru stabilitatea și performanța website-urilor SEO.
Prin blocarea IP-urilor, setarea unor reguli stricte în server și utilizarea uneltelor de monitorizare, puteți preveni consumul abuziv de resurse și proteja buna funcționare a website-ului dumneavoastră.
Cum oprești crawling-ul agresiv?
1. Ce este crawling-ul agresiv?
Crawling-ul agresiv apare atunci când boții, legitimi sau malițioși, accesează în mod repetat și excesiv paginile unui website într-un interval scurt.
Acest comportament consumă resurse semnificative ale serverului și poate afecta performanța generală, inclusiv timpii de răspuns și scorurile SEO.
2. Efectele negative ale crawling-ului excesiv
- Încetinirea timpului de încărcare al paginilor
- Suprasolicitarea CPU-ului și memoriei serverului
- Creșterea costurilor pentru găzduire și bandă
- Blocarea temporară a accesului crawlerilor legitimi (Googlebot)
3. Identificarea boților agresivi
Pentru a identifica boții care cauzează probleme, analizați fișierele log ale serverului:
- Apache:
/var/log/apache2/access.log
- Nginx:
/var/log/nginx/access.log
Căutați adrese IP cu un număr foarte mare de cereri într-un timp scurt sau user-agent neobișnuit.
4. Limitarea crawling-ului cu fișierul robots.txt
Fișierul robots.txt
poate interzice accesul anumitor boți:
User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Disallow: /
Această metodă funcționează doar pentru boții care respectă regulile robots.txt.
5. Blocarea IP-urilor agresive din server
Puteți bloca IP-urile sau rețelele suspecte direct din firewall:
- UFW:
sudo ufw deny from 192.168.1.100
- iptables:
sudo iptables -A INPUT -s 192.168.1.100 -j DROP
- CSF:
csf -d 192.168.1.100
6. Limitarea ratelor de acces cu mod_evasive sau rate limiting
Pentru servere Apache, instalați și configurați mod_evasive:
- Detectează și blochează rapid accesul excesiv
- Poate trimite emailuri de alertă și bloca IP-ul temporar
Pe Nginx, puteți utiliza limit_req
pentru a impune un număr maxim de cereri:
limit_req_zone $binary_remote_addr zone=req_limit_per_ip:10m rate=1r/s; server { location / { limit_req zone=req_limit_per_ip burst=5; } }
7. Utilizarea .htaccess pentru blocare rapidă
În cazul unui website pe Apache, puteți bloca boți pe baza user-agentului:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^.*(AhrefsBot|SemrushBot|MJ12bot).* [NC] RewriteRule .* - [F,L]
8. Monitorizarea permanentă cu Fail2Ban
Fail2Ban poate fi configurat pentru a analiza fișierele log și a bloca automat IP-urile care depășesc un anumit număr de cereri într-un timp definit.
Este eficient împotriva atacurilor brute force, dar și împotriva crawlere-lor agresive.
9. Limitarea accesului la sitemap.xml
Boții agresivi pot accesa fișierele sitemap în mod repetat. Puteți restricționa acest lucru prin reguli în .htaccess
sau robots.txt
:
User-agent: * Disallow: /sitemap.xml
Aceasta nu afectează indexarea de către Google dacă sitemap-ul este trimis manual prin Search Console.
10. Verificarea impactului în Google Search Console
Accesați Google Search Console → Setări → Rată de accesare.
Aici puteți analiza activitatea crawlerului Google și, dacă este necesar, solicitați o limitare temporară a crawlării.