Come bloccare i Web Crawler da determinate pagine Web

Hai alcune parti di un sito Web che non vuoi indicizzare da un motore di ricerca? In tal caso, è possibile bloccare i web crawler di ricerca dalla pagina o dalle pagine che si desidera essere web crawler gratuito. È molto più facile di quanto si possa pensare e tutto ha a che fare con un file chiamato robot.txt.

Utilizzo dei robot.file txt per bloccare i crawler Web

Quando non vuoi che il tuo sito Web o le pagine specifiche del tuo sito Web vengano scansionate e successivamente indicizzate, dovrai usare qualcosa noto come robot.file txt. Questo particolare file limita tutti o la maggior parte l’accesso a determinate aree del tuo sito web e sarà sempre rispettato dai crawler web dei motori di ricerca.

Si può facilmente avere un robot.file txt creato tramite i servizi di Google e anche monitorare quali URL sono stati bloccati dalla scansione nella loro sezione Strumenti per i Webmaster. Altri motori di ricerca offrono gli stessi servizi e anche rispettare il file in modo che il contenuto può essere privato. web crawler

Esistono due modi per bloccare l’accesso a determinate pagine web: conoscere la radice del dominio o utilizzare il meta tag robots. Ecco alcune cose da sapere sulla limitazione dell’accesso ai crawler web.

Se non vuoi che nulla su una particolare pagina venga indicizzato, il percorso migliore è usare il meta tag noindex o x-robots-tag, specialmente quando si tratta dei crawler web di Google.
Tuttavia, non tutti i contenuti potrebbero essere al sicuro dall’indicizzazione. Se ci sono collegamenti alla pagina su altri siti web, allora quel particolare contenuto sarà ancora trovato sui motori di ricerca a causa dei collegamenti esterni.
Esistono tattiche di ottimizzazione della ricerca black hat utilizzate dagli spammer che aggirano i robot.file txt. Se ci sono informazioni molto sensibili su quella pagina web, quindi la strategia migliore è quella di utilizzare il file così come utilizzando la protezione con password.

Se vuoi iniziare a indicizzare una determinata pagina Web, tutto ciò che devi fare è rimuovere il file e consentire ai crawler Web di indicizzarlo. Siti web in cui tutto può essere indicizzato non hanno nemmeno bisogno di un robot.file txt. Se si desidera che determinati contenuti per essere indice libero, i robot.file txt è la soluzione migliore ed è molto facile da configurare.

Cultura Web Design offre una varietà di servizi tra cui Internet Marketing e SEO per le piccole imprese a Miami e Fort Lauderdale. Puoi saperne di più sui nostri servizi o contattarci per un colloquio personale.

UAC Blog

Bloccare i Web Crawler da determinate pagine Web

Utilizzo dei robot.file txt per bloccare i crawler Web

Lascia un commento Annulla risposta

Archivi