Depuis des années déjà, il est possible de fournir des instructions aux robots des moteurs de recherche crawlant les sites internet. C’est via le fichier robots.txt, situé à la racine du domaine (ou sous-domaine), que peuvent être définis des droits d’accès (permissions ou interdictions), la localisation du sitemap ou encore les pages à appeler en cas d’erreurs HTTP.
Ces directives peuvent viser l’ensemble des crawlers parcourant le web ou, au contraire, être spécifiques à un spider comme par exemple GoogleBot, mais dans tous les cas concernant ce dernier, seuls les premiers 500 Ko dudit fichier seront pris en compte.
Même si ce poids peut difficilement être atteint, il est important d’être conscient de cette limitation.