Skip to main content

Robots.txt e GEO: come evitare che le AI non trovino il tuo brand.

Il file robots.txt decide quali bot possono leggere il tuo sito. Per un CMO B2B o un Founder, un errore qui non è “solo tecnico”: può ridurre la probabilità che ChatGPT, Claude o Perplexity trovino segnali utili su prodotto, casi d’uso e differenziatori.

Il risultato operativo è semplice: meno citazioni, meno raccomandazioni e shortlist meno favorevoli lungo il funnel.

Cos’è robots.txt (e perché impatta le risposte delle AI)

Robots.txt è un file pubblico (di solito su /robots.txt) che fornisce istruzioni di crawling agli user-agent. In pratica, comunica a crawler e bot quali percorsi possono visitare e quali devono evitare. Se blocchi aree che contengono informazioni decisive (FAQ tecniche, pagine prodotto, confronti, case study), riduci la quantità di contenuto “leggibile” che può entrare nel perimetro di raccolta dei sistemi automatizzati.

Nel contesto GEO (Generative Engine Optimization), i modelli e i sistemi di retrieval tendono a valorizzare contenuti chiari, verificabili e coerenti: definizioni, specifiche, esempi, prove sociali, fonti e pagine che spiegano posizionamento e use case. Se questi asset sono difficili da raggiungere o vietati, l’AI avrà meno elementi per citarti correttamente o consigliarti rispetto ai competitor.

Robots.txt GEO: quali pagine non bloccare se vuoi essere citato

Molti siti B2B, per ragioni storiche di SEO o per governance, finiscono per disalloware sezioni “comode” da tagliare: aree tecniche, directory di supporto o pagine considerate secondarie. Tuttavia, sono spesso proprio queste pagine a contenere le entità e le relazioni che aiutano un sistema generativo a capire chi sei, cosa fai, per chi e in cosa sei diverso.

  • Pagine prodotto e feature: spiegano benefici, requisiti, integrazioni, limiti e casi d’uso.
  • FAQ tecniche e documentazione: chiariscono terminologia, configurazioni, compatibilità e troubleshooting.
  • Case study e testimonianze: forniscono evidenze, contesto e risultati misurabili, utili per la fase di valutazione.
  • Pagine confronto (vs alternative/competitor): aiutano a posizionare il brand nelle shortlist.
  • Pagine su sicurezza e compliance (es. GDPR, DPA, ISO): riducono frizione in procurement e rassicurano l’AI sul perimetro d’uso.

Se devi proteggere aree sensibili (admin, staging, pannelli, endpoint interni), fallo in modo chirurgico: l’obiettivo è preservare la leggibilità pubblica degli asset che supportano awareness, consideration e decisione, senza esporre ciò che non deve essere indicizzato o scansionato.

Dal controllo tecnico al funnel B2B: cosa cambia davvero

Nel funnel B2B, le risposte delle AI vengono usate sempre più spesso per: identificare categorie (“migliori piattaforme X”), fare pre-selezione (“soluzioni per Y in Italia/Europa”), validare rischi (“è conforme al GDPR?”), confrontare opzioni (“pro e contro di A vs B”). Se il tuo sito non offre contenuti accessibili che rispondono a queste domande, l’AI riempirà i vuoti con segnali di terze parti o con i contenuti dei competitor.

Questo non significa “aprire tutto a tutti”. Significa distinguere tra governancee oscuramento: puoi gestire compliance, policy e proprietà intellettuale, mantenendo però accessibili le pagine che definiscono proposition, proof e requisiti. In Brandplane, questo tipo di audit è spesso il primo passo prima di parlare di crescita GEO: se mancano i segnali di base, qualsiasi ottimizzazione successiva rende meno.

Come verificare robots.txt senza bloccare la visibilità GEO

Step 1: Controlla la versione live di /robots.txt

Apri tuodominio.it/robots.txt e verifica che non ci siano regole troppo ampie (ad esempio disallow su directory che contengono pagine prodotto, risorse o guide). Assicurati che il file che vedi sia quello in produzione e non una versione di staging.

Step 2: Mappa gli asset critici del funnel

Elenca le URL che sostengono decisioni B2B: prodotto, pricing (se pubblico), case study, pagine “vs”, FAQ, sicurezza/compliance, integrazioni. Verifica che queste URL non ricadano in percorsi disallowati e che restituiscano status 200 con contenuto completo.

Step 3: Separa ciò che va protetto da ciò che va letto

Proteggi aree admin, ambienti di test e endpoint interni con autenticazione e regole mirate, evitando blocchi generalisti. Se serve governance, definisci policy chiare su quali directory sono “public knowledge” e quali sono riservate, così da non compromettere citabilità e comprensione del brand.

Frequently Asked Questions

Robots.txt può davvero influenzare se un brand viene citato da ChatGPT o Perplexity?

Sì, perché robots.txt limita l’accesso dei bot a specifiche sezioni del sito. Se le pagine che spiegano prodotto, casi d’uso e prove (case study, FAQ, confronti) non sono leggibili, diminuiscono i segnali disponibili per sistemi di crawling e retrieval. In pratica, diventa più difficile per un sistema generativo citare fonti primarie del brand in modo affidabile.

Quali pagine B2B sono più rischiose da bloccare in ottica GEO?

Le più critiche sono pagine prodotto/feature, FAQ tecniche, case study, pagine “vs” e contenuti su sicurezza e compliance (GDPR, DPA, certificazioni). Sono quelle che contengono definizioni, entità, requisiti e prove utili nella fase di valutazione. Bloccarle crea vuoti informativi che spesso vengono riempiti da fonti di terze parti o competitor.

Bloccare con robots.txt è la stessa cosa che impedire l’indicizzazione su Google?

No, sono controlli diversi. Robots.txt regola principalmente il crawling, mentre l’indicizzazione dipende anche da meta tag, header HTTP e segnali dei motori. Inoltre, i sistemi AI possono usare pipeline differenti da quelle dei motori tradizionali, quindi una scelta fatta “per SEO” può avere effetti collaterali sulla visibilità nelle risposte generative.

Come posso mantenere compliance e governance senza sparire dalle risposte AI?

La pratica corretta è proteggere in modo mirato ciò che è sensibile (admin, staging, dati interni) e lasciare accessibili gli asset “public knowledge” che descrivono il brand. La compliance si gestisce con policy, controllo dei contenuti e autenticazione, non con blocchi generalisti su directory che contengono materiale di marketing e proof. Un audit GEO-first aiuta a separare chiaramente i due perimetri.

Qual è il primo controllo rapido da fare prima di investire in GEO?

Verifica che /robots.txt in produzione non blocchi pagine prodotto, FAQ, case study e pagine di confronto, e che queste URL restituiscano contenuti completi e accessibili. Poi controlla che non ci siano redirect o errori che rendono instabile il crawling. Solo dopo ha senso passare a priorità GEO come query set, benchmark competitivo e piano contenuti.

Leave a Reply