Ce boți AI trebuie permis în robots.txt?

Prioritate maximă: OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Claude-SearchBot, Claude-User, Google-Extended — aceștia fac retrieval activ și pot cita cu link. Secundar: GPTBot, ClaudeBot, CCBot — boți de training, pentru brand awareness în modele viitoare.

Ce e llms.txt și cum îl creez?

llms.txt e un fișier Markdown la /llms.txt care descrie site-ul pentru LLM-uri: ce ești, ce oferi, unde e conținutul. Nu e un standard oficial, ci o convenție adoptată tot mai larg. Creează-l cu o definiție clară a brandului, linkuri spre paginile principale și actualizează-l la fiecare conținut nou major.

robots.txt blocând unii boți AI e o problemă mare?

Da, pentru citabilitate. Dacă PerplexityBot e blocat, nu poți fi citat pe Perplexity. Dacă OAI-SearchBot e blocat, ChatGPT cu browsing nu te vede. Este una dintre cele mai frecvente cauze pentru care branduri cu conținut bun nu apar în răspunsurile AI.

Trebuie să permit boții de training (GPTBot, ClaudeBot)?

E o decizie strategică. Permițând boții de training, conținutul tău poate fi inclus în datele de antrenament pentru modele viitoare — ceea ce alimentează canalul parametric. Blocând, protejezi conținut proprietar dar renunți la brand awareness în modele viitoare. Pentru o agenție de marketing, permisiunea e de obicei avantajoasă.

Cât de des trebuie actualizat llms.txt?

La fiecare pagină sau secțiune majoră nouă: articole blog, servicii noi, experimente Lab finalizate. Nu e necesar la fiecare modificare minoră. O frecvență de actualizare de 1-2 ori pe lună pentru un site activ e suficientă.

robots.txt și llms.txt pentru boții AI — Ghid de configurare

De ce robots.txt contează specific pentru AI

Un robots.txt configurat pentru SEO clasic (permite Googlebot, blochează tot ce nu e necesar) blochează involuntar boții AI care aduc citările cu atribuire. Dacă PerplexityBot, OAI-SearchBot sau ClaudeBot nu pot crawla site-ul tău, nu exiști ca sursă potențială de citare pe acele platforme — indiferent cât de bun e conținutul.

Problema apare frecvent când robots.txt are User-agent: * cu permisiuni restrictive sau când un CMS (WordPress, Shopify, Wix) adaugă reguli de blocare generice. Auditarea robots.txt e primul pas în orice audit GEO/AEO.

Lista completă de boți AI pe care să îi permiți

Boți de retrieval (generează citări cu link — prioritate maximă):

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Bingbot
Allow: /

Boți de training (permit pentru brand awareness în modele viitoare):

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: CCBot
Allow: /

Strategia recomandată: permit totul implicit (User-agent: * / Allow: /) și listează excepțiile specifice, nu invers. O agenție AEO trebuie să fie maxim citabilă — blocarea selectivă a boților de training e opțională și are sens doar dacă ai conținut proprietar pe care nu vrei inclus în date de training.

Ce este llms.txt

llms.txt e un fișier de convenție (similar robots.txt) care ghidează modelele de limbaj mari (LLM-uri) în înțelegerea structurii și contextului unui site. Nu e un standard oficial, ci o practică emergentă cu adopție crescândă în 2025-2026.

Spre deosebire de robots.txt (care spune ce poți crawla), llms.txt spune ce există și ce înseamnă — o hartă a site-ului optimizată pentru înțelegere automată, nu pentru navigare umană.

Structura unui llms.txt eficient

Format recomandat (Markdown, accesibil la /llms.txt):

# [Numele brandului]

> [O propoziție: ce face brandul, pentru cine, unde]

[2-3 paragrafe: context, fondator/echipă, abordare distinctivă]

## Servicii
- [Serviciu 1](URL): descriere scurtă
- [Serviciu 2](URL): descriere scurtă

## Resurse
- [Blog/Lab/Ghiduri](URL): ce conțin
- [Despre](URL): cine suntem

## Contact
- [Metodă de contact](URL sau tel)

Principii pentru un llms.txt bun:

Prima propoziție trebuie să fie extractabilă ca definiție a brandului (motoarele AI o folosesc ca sursă principală)
Fiecare link din llms.txt trebuie să fie real și să returneze 200 — 404-urile erodează credibilitatea
Actualizează llms.txt de fiecare dată când adaugi pagini sau servicii noi
Nu include URL-uri de pagini draft, pagini private sau landing pages temporare

Robots.txt vs llms.txt — care face ce

Aspect	robots.txt	llms.txt
Scop	Controlează accesul crawlerilor	Ghidează înțelegerea LLM-urilor
Format	Reguli Allow/Disallow per bot	Markdown structurat, text descriptiv
Standard	Standard oficial W3C	Convenție emergentă (2025+)
Impact imediat	Da (blocarea e imediată)	Indirect, prin context și indexare

Verificare și mentenanță

Testează robots.txt cu Google Search Console → Testare robots.txt (funcționează și pentru a simula alți user-agenți)
Verifică periodic că /llms.txt returnează 200 (poate fi spart de redirects sau config server)
Adaugă în llms.txt secțiunile Blog și Lab pe măsură ce publici conținut nou
După orice modificare de CMS sau server, re-verifică că boții AI nu au fost blocați accidental

Citește și

GEO: ghid de strategie →AEO: fundamente complete →

← Înapoi la SEO tehnic & on-page

robots.txt și llms.txt pentru boții AI — cum permiți crawlarea și ghidezi citabilitatea