De ce robots.txt contează specific pentru AI
Un robots.txt configurat pentru SEO clasic (permite Googlebot, blochează tot ce nu e necesar) blochează involuntar boții AI care aduc citările cu atribuire. Dacă PerplexityBot, OAI-SearchBot sau ClaudeBot nu pot crawla site-ul tău, nu exiști ca sursă potențială de citare pe acele platforme — indiferent cât de bun e conținutul.
Problema apare frecvent când robots.txt are User-agent: * cu permisiuni restrictive sau când un CMS (WordPress, Shopify, Wix) adaugă reguli de blocare generice. Auditarea robots.txt e primul pas în orice audit GEO/AEO.
Lista completă de boți AI pe care să îi permiți
Boți de retrieval (generează citări cu link — prioritate maximă):
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bingbot
Allow: /
Boți de training (permit pentru brand awareness în modele viitoare):
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: CCBot
Allow: /
Strategia recomandată: permit totul implicit (User-agent: * / Allow: /) și listează excepțiile specifice, nu invers. O agenție AEO trebuie să fie maxim citabilă — blocarea selectivă a boților de training e opțională și are sens doar dacă ai conținut proprietar pe care nu vrei inclus în date de training.
Ce este llms.txt
llms.txt e un fișier de convenție (similar robots.txt) care ghidează modelele de limbaj mari (LLM-uri) în înțelegerea structurii și contextului unui site. Nu e un standard oficial, ci o practică emergentă cu adopție crescândă în 2025-2026.
Spre deosebire de robots.txt (care spune ce poți crawla), llms.txt spune ce există și ce înseamnă — o hartă a site-ului optimizată pentru înțelegere automată, nu pentru navigare umană.
Structura unui llms.txt eficient
Format recomandat (Markdown, accesibil la /llms.txt):
# [Numele brandului]
> [O propoziție: ce face brandul, pentru cine, unde]
[2-3 paragrafe: context, fondator/echipă, abordare distinctivă]
## Servicii
- [Serviciu 1](URL): descriere scurtă
- [Serviciu 2](URL): descriere scurtă
## Resurse
- [Blog/Lab/Ghiduri](URL): ce conțin
- [Despre](URL): cine suntem
## Contact
- [Metodă de contact](URL sau tel)
Principii pentru un llms.txt bun:
- Prima propoziție trebuie să fie extractabilă ca definiție a brandului (motoarele AI o folosesc ca sursă principală)
- Fiecare link din llms.txt trebuie să fie real și să returneze 200 — 404-urile erodează credibilitatea
- Actualizează llms.txt de fiecare dată când adaugi pagini sau servicii noi
- Nu include URL-uri de pagini draft, pagini private sau landing pages temporare
Robots.txt vs llms.txt — care face ce
| Aspect | robots.txt | llms.txt |
|---|---|---|
| Scop | Controlează accesul crawlerilor | Ghidează înțelegerea LLM-urilor |
| Format | Reguli Allow/Disallow per bot | Markdown structurat, text descriptiv |
| Standard | Standard oficial W3C | Convenție emergentă (2025+) |
| Impact imediat | Da (blocarea e imediată) | Indirect, prin context și indexare |
Verificare și mentenanță
- Testează robots.txt cu Google Search Console → Testare robots.txt (funcționează și pentru a simula alți user-agenți)
- Verifică periodic că /llms.txt returnează 200 (poate fi spart de redirects sau config server)
- Adaugă în llms.txt secțiunile Blog și Lab pe măsură ce publici conținut nou
- După orice modificare de CMS sau server, re-verifică că boții AI nu au fost blocați accidental