Ahref : Comment utiliser les expressions régulières dans les paramètres avancés de l’audit de site d’Ahrefs

L’outil d’audit de site d’Ahrefs vous permet d’explorer un ensemble spécifique d’URL et d’exclure toute URL de l’exploration. Pour ce faire, vous devez définir certains modèles à l’aide d’expressions régulières (alias regex ou regexp).

Gardez à l’esprit que ces règles s’appliquent également à la semences. Donc, chaque fois que vous établissez un nouveau modèle, assurez-vous que notre chenille a quelque chose pour commencer le crawl.

Si vous n’avez jamais rencontré d’expressions régulières auparavant, cela peut vous sembler un charabia aléatoire 🙂

Je vais vous montrer comment utiliser la regex dans les paramètres avancés de l’Audit de site de Ahrefs. Ce n’est pas difficile du tout.

Si vous mettez un modèle dans le champ « Inclure » des paramètres d’exploration, l’audit du site n’explorera que les URL qui correspondent à ce modèle.

Le champ « Exclure » fonctionne de la même manière. Notre crawler sautera les URL qui correspondent au modèle.

Si vous utilisez les deux champs et qu’une URL correspond à la fois au schéma « Inclure » et « Exclure », l’audit du site exclura cette URL du crawl.

Pour créer un modèle, vous doit utiliser Regex.

Passons des exemples les plus simples à des exemples plus avancés.

La configuration suivante inclut toutes les URL contenant le mot « blog » et exclut les URL contenant le mot « produit ».

Cela donne l’ordre à notre robot de ramper :
https://ahrefs.com/blog
https://ahrefs.com/blog/seo-techniques/
https://ahrefs.com/academy/blogging-for-busines

Et à ignorer :
https://ahrefs.com/blog/category/product-blog/
https://ahrefs.com/blog/ecommerce-out-of-stock-products/

C’était facile, non ?

Mais que faire si vous souhaitez inclure les URL du sous-dossier /blog/ spécifiquement mais pas https://ahrefs.com/academy/blogging-for-business?

Vous pouvez utiliser un modèle un peu plus avancé :

Vous vous demandez sans doute ce que sont ces symboles avant et après « blog ».

Dans la regex, il faut « s’échapper » certains symboles afin qu’ils ne soient pas reconnus comme des caractères spéciaux. Pour ce faire, utilisez la barre oblique inversée avant le personnage.

Un simple point . dans la regex, par exemple, signifie tout caractère. Mais . fonctionne comme un point symbole. C’est pourquoi j’ai échappé au caractère slash dans l’exemple ci-dessus comme ceci : /

^ – ce symbole indique le début de l’URL

$ – ce symbole indique le début de l’URL

. – le point décimal correspond à un seul caractère

* – correspond à l’expression précédente 0 ou plusieurs fois

+ – correspond à 1 ou plusieurs des précédents

? – Correspond à 0 ou 1 de la précédente

| – est équivalent à OR.

[__] – est similaire à |, mais peut être utilisé pour définir des plages

(__) – les parenthèses regroupent la regex entre elles

d – correspond à un chiffre

D – correspond à une valeur non numérique

w – correspond à un caractère de mot

W – correspond à un caractère non verbal

Voyons maintenant comment ils travaillent ensemble.

1. URL Https dans le sous-dossier /wp-content/.

^https:.*/wp-content/

^ indique le début de l’URL. Cette règle permet de faire correspondre toutes les URL qui commencent par « https : » suivi de 0 à un nombre quelconque de caractères .* avant « /wp-content/ ».

URL correspondant au modèle :
https://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png

Les URL ne correspondent pas au modèle :
http://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png

2. Les URL dans un sous-dossier, y compris l’URL du répertoire lui-même.

/blog(/.*)?$

Cette règle correspondra à toutes les URL qui se terminent par $ avec « /blog », éventuellement suivi de la barre oblique et de 0 à un nombre quelconque de caractères (/.*)?. Le site point d’interrogation dans ce modèle correspond à l’expression entre parenthèses entre zéro et une fois, ce qui fait facultatif.

URL correspondant au modèle :
https://ahrefs.com/blog
https://ahrefs.com/blog/301-redirects/

Les URL ne correspondent pas au modèle :
https://ahrefs.com/blogging
https://ahrefs.com/academy/blogging-for-business

3. Les URL qui contiennent les symboles @ ou %.

@|% ou [@%]

| et [__] travailler comme OR

URL correspondant au modèle :
https://ahrefs.com/@timsoulo
https://ahrefs.com/%D1%81%D0%B5%D0%BE

Les URL ne correspondent pas au modèle :
https://ahrefs.com/blog/nofollow-links

4. URL « Ajouter au panier » dans Woocommerce

?add-to-cart=

Gardez à l’esprit que ? est un symbole spécial dans la regex. Pour l’utiliser comme un simple point d’interrogation, n’oubliez pas d’y échapper comme ceci : ?

URL correspondant au modèle :
https://yourdomain.com/?add-to-cart=25

Les URL ne correspondent pas au modèle :
https://yourdomain.com/smartphones

5. URL contenant une année (4 chiffres)

[0-9]{4} ou d{4}

[0-9]{4} correspondra à toutes les URL contenant quatre {4} chiffres [0-9] d’affilée

d{4} fait la même chose que d représente un chiffre

URL correspondant au modèle :
https://yourdomain.com/best-smartphones-2019

Les URL ne correspondent pas au modèle :
https://yourdomain.com/smartphones

6. Toutes les URL du sous-domaine (à la fois http et https)

^https?://help.ahrefs.com

Cette règle s’applique à toutes les URL qui commencent par « http://help.ahrefs.com« ou « https://help.ahrefs.com« .

Le point d’interrogation ici s? indique que « s« est facultatifDonc, les deux http et https respectera cette règle.

URL correspondant au modèle :
https://help.ahrefs.com
http://help.ahrefs.com/
http://help.ahrefs.com/site-audit

Les URL ne correspondent pas au modèle :
https://ahrefs.com/site-audit
ftp://help.ahrefs.com

7. Diverses URL de fichiers

.(jpg|gif|bmp|png|css|pdf)$

Cette règle correspondra à toutes les URL qui se terminent par $ avec .jpg OU .gif OU .bmp OU .png OU .css OU .pdf.

Parenthèses (__) grouper la regex entre eux et | signifie OU

URL correspondant au modèle :
https://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png
http://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png

Les URL ne correspondent pas au modèle :
https://ahrefs.com/site-audit

J’espère que cet article vous a aidé à apprendre quelques trucs sympas que vous pouvez faire avec les expressions régulières.

Veuillez noter que vous pouvez appliquer plusieurs modèles pour inclure ou exclure des URL dans les paramètres d’exploration. Pour ajouter une règle supplémentaire, cliquez sur le bouton « icône  » :

Les règles ci-dessus demanderont à notre crawler d’explorer les URL contenant les mots :

« blog » ou « produit

ET ne contiennent pas les mots :

« blogging » ou « productive ».

Et n’oubliez pas que ces règles s’appliquent également à la semences. Donc, chaque fois que vous les réglez, assurez-vous que notre chenille a quelque chose pour commencer le crawl.

Vous pouvez tester votre Regex sur ce site : https://regex101.com/. Notez que vous devez sélectionner « Golang » dans le menu de gauche.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *