Tehnic

robots.txt și llms.txt pentru boții AI — cum permiți crawlarea și ghidezi citabilitatea

Cum configurezi robots.txt pentru a permite boților AI accesul corect, ce este llms.txt și cum îl structurezi pentru a ghida motoarele AI în înțelegerea site-ului tău.

De Dragoș Mihai Drăgoi · · SEO tehnic & on-page

De ce robots.txt contează specific pentru AI

Un robots.txt configurat pentru SEO clasic (permite Googlebot, blochează tot ce nu e necesar) blochează involuntar boții AI care aduc citările cu atribuire. Dacă PerplexityBot, OAI-SearchBot sau ClaudeBot nu pot crawla site-ul tău, nu exiști ca sursă potențială de citare pe acele platforme — indiferent cât de bun e conținutul.

Problema apare frecvent când robots.txt are User-agent: * cu permisiuni restrictive sau când un CMS (WordPress, Shopify, Wix) adaugă reguli de blocare generice. Auditarea robots.txt e primul pas în orice audit GEO/AEO.

Lista completă de boți AI pe care să îi permiți

Boți de retrieval (generează citări cu link — prioritate maximă):

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Bingbot
Allow: /

Boți de training (permit pentru brand awareness în modele viitoare):

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: CCBot
Allow: /

Strategia recomandată: permit totul implicit (User-agent: * / Allow: /) și listează excepțiile specifice, nu invers. O agenție AEO trebuie să fie maxim citabilă — blocarea selectivă a boților de training e opțională și are sens doar dacă ai conținut proprietar pe care nu vrei inclus în date de training.

Ce este llms.txt

llms.txt e un fișier de convenție (similar robots.txt) care ghidează modelele de limbaj mari (LLM-uri) în înțelegerea structurii și contextului unui site. Nu e un standard oficial, ci o practică emergentă cu adopție crescândă în 2025-2026.

Spre deosebire de robots.txt (care spune ce poți crawla), llms.txt spune ce există și ce înseamnă — o hartă a site-ului optimizată pentru înțelegere automată, nu pentru navigare umană.

Structura unui llms.txt eficient

Format recomandat (Markdown, accesibil la /llms.txt):

# [Numele brandului]

> [O propoziție: ce face brandul, pentru cine, unde]

[2-3 paragrafe: context, fondator/echipă, abordare distinctivă]

## Servicii
- [Serviciu 1](URL): descriere scurtă
- [Serviciu 2](URL): descriere scurtă

## Resurse
- [Blog/Lab/Ghiduri](URL): ce conțin
- [Despre](URL): cine suntem

## Contact
- [Metodă de contact](URL sau tel)

Principii pentru un llms.txt bun:

Robots.txt vs llms.txt — care face ce

Aspect robots.txt llms.txt
ScopControlează accesul crawlerilorGhidează înțelegerea LLM-urilor
FormatReguli Allow/Disallow per botMarkdown structurat, text descriptiv
StandardStandard oficial W3CConvenție emergentă (2025+)
Impact imediatDa (blocarea e imediată)Indirect, prin context și indexare

Verificare și mentenanță

Întrebări frecvente

Întrebări despre Tehnic

Prioritate maximă: OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Claude-SearchBot, Claude-User, Google-Extended — aceștia fac retrieval activ și pot cita cu link. Secundar: GPTBot, ClaudeBot, CCBot — boți de training, pentru brand awareness în modele viitoare.
llms.txt e un fișier Markdown la /llms.txt care descrie site-ul pentru LLM-uri: ce ești, ce oferi, unde e conținutul. Nu e un standard oficial, ci o convenție adoptată tot mai larg. Creează-l cu o definiție clară a brandului, linkuri spre paginile principale și actualizează-l la fiecare conținut nou major.
Da, pentru citabilitate. Dacă PerplexityBot e blocat, nu poți fi citat pe Perplexity. Dacă OAI-SearchBot e blocat, ChatGPT cu browsing nu te vede. Este una dintre cele mai frecvente cauze pentru care branduri cu conținut bun nu apar în răspunsurile AI.
E o decizie strategică. Permițând boții de training, conținutul tău poate fi inclus în datele de antrenament pentru modele viitoare — ceea ce alimentează canalul parametric. Blocând, protejezi conținut proprietar dar renunți la brand awareness în modele viitoare. Pentru o agenție de marketing, permisiunea e de obicei avantajoasă.
La fiecare pagină sau secțiune majoră nouă: articole blog, servicii noi, experimente Lab finalizate. Nu e necesar la fiecare modificare minoră. O frecvență de actualizare de 1-2 ori pe lună pentru un site activ e suficientă.
Următorul pas

Vrei să aplici asta pe site-ul tău?

Discovery call de 30 de minute. Îți spun direct ce poți face și prin ce ar trebui să începi.