Ahrefs gère son propre robot d’indexation (connu sous le nom de AhrefsBot) qui visite des millions de sites web pour récupérer des informations et les stocker dans nos dossiers. C’est ainsi qu’Ahrefs construit son indice de lien énorme.
AhrefsBot respecte strictement les règles de robots.txt, qu’elles soient d’autorisation ou de refus. Ainsi, il est possible de contrôler le comportement de AhrefsBot en modifiant le fichier robots.txt.
À notre connaissance, des sites comme Quora, LinkedIn et Slideshare en ont aussi :
- nous a empêchés de ramper, ou
- n’a permis qu’un crawling partiel de leur site.
C’est la principale raison pour laquelle les liens de ces sites (dofollow/nofollow) ne sont pas indiqués dans le rapport sur les liens de l’Ahrefs.
Quant aux fichiers PDF, AhrefsBot ne les explore pas pour y trouver des liens, des méta-données, etc.