Le fichier robots.txt

Lors de la création d’un site web, il est courant de placer à sa racine un fichier texte nommé « robots.txt ». Ce fichier a pour fonction d’informer les robots d’indexation sur les parties spécifiques du site que l’on souhaite autoriser ou interdire en termes d’exploration et d’indexation.

Qu’est-ce qu’un fichier robots.txt

Pour que les robots d’indexations puissent trouver le fichier robots.txt celui-ci doit être placé à la racine du site.

Pour vérifier l’accessibilité publique du fichier robots.txt que vous venez d’importer, assurez-vous que son contenu est consultable via un navigateur web. Par exemple, pour le site web dont l’URL est https://example.fr, le contenu du fichier devrait être visible en accédant à l’URL https://example.fr/robots.txt dans le navigateur.

Le fichier robots.txt doit être un document texte brut, ne contenant que du texte sans mise en forme, styles, images, ou autres éléments multimédias. Généralement créés et modifiés à l’aide d’éditeurs de texte simples. Pour la rédaction d’un fichier robots.txt, vous pouvez utiliser n’importe quel éditeur de texte simple, y compris ceux intégrés à votre système d’exploitation, tels que le Bloc-notes sur Windows, TextEdit sur macOS, ou Nano/Vim sur Linux.

Il est possible de vérifier le fichier robots.txt à l’aide de Google Console Search, un outil fourni par Google pour aider les propriétaires de sites web à surveiller et optimiser leur présence en ligne.

Le contenu du fichier robots.txt

Sites web ne devant pas être référencés

Dans le contexte d’un site non destiné au public, tel qu’une application web à usage restreint, un site de développement, de préproduction ou de bac à sable, il est recommandé de prévenir le référencement en empêchant l’exploration par les robots d’indexation. Une méthode courante pour ce faire est l’utilisation d’un fichier robots.txt.

Lorsque ces environnements sont indexés par les moteurs de recherche, il devient parfois complexe de déréférencer les pages concernées, surtout avec certains moteurs. Cela peut également entraîner des difficultés de référencement pour le site final, en raison de la présence de contenu dupliqué.

Voici un exemple de contenu pour un fichier robots.txt qui interdit l’exploration de l’ensemble du site par les robots d’indexation :

				
					User-Agent: *
Disallow: /

				
			

Ce code indique aux robots d’indexation de ne pas explorer toutes les pages du site. Cependant, il existe différentes directives que vous pouvez utiliser pour personnaliser le comportement selon vos besoins.

Formuler des directives pour le fichier robots.txt

Les directives stipulent aux robots d’exploration les sections de votre site qu’ils sont autorisés à parcourir. Suivez les instructions ci-dessous pour intégrer des directives à votre fichier robots.txt :

Un fichier robots.txt est constitué d’un ou plusieurs groupes, également appelés ensembles de directives.

Chaque groupe est composé de plusieurs directives (ou règles), une par ligne. Chaque groupe commence par une ligne « User-agent » spécifiant la cible de ce groupe.

Chaque groupe inclut les informations suivantes :

  • Le robot (user-agent) auquel le groupe s’applique.
  • Les emplacements ou fichiers auxquels cet agent est autorisé à accéder.
  • Les emplacements ou fichiers auxquels cet agent ne peut pas accéder.

Les robots d’exploration traitent les groupes de haut en bas. Un user-agent donné ne peut être associé qu’à un seul ensemble de directives, défini comme le premier groupe le plus spécifique correspondant à cet user-agent. Si plusieurs groupes existent pour le même user-agent, ils seront fusionnés en un seul groupe avant d’être traités.

Le principe de base est que tant qu’une page ou un répertoire n’est pas interdit par une directive « Disallow », le user-agent est autorisé à les explorer.

Le caractère « # » indique le début d’un commentaire. Les commentaires sont ignorés lors du traitement.

Le fichier robots.txt peut également être utilisé pour spécifier le chemin d’un sitemap XML.

Règles utilisables dans un robots.txt

« User-agent »  est utilisé pour spécifier à quel robot d’exploration un ensemble de règles s’applique.

« Disallow » est  utilisée pour indiquer aux robots d’exploration qu’ils ne sont pas autorisés à accéder à certaines parties ou à l’ensemble d’un site web. Cela permet aux propriétaires de sites de contrôler quelles parties de leur site doivent être exclues de l’indexation par les moteurs de recherche.

« Allow » est utilisée  pour indiquer aux robots d’exploration qu’ils sont autorisés à accéder à certaines parties spécifiques d’un site web, même si d’autres directives « Disallow » peuvent interdire l’accès à des sections plus larges.

« Sitemap » est utilisée pour indiquer aux robots d’exploration où trouver le sitemap XML du site.

Exemples :

				
					# Interdit l'accès à Yandex et DuckDuckGo
User-agent: Yandex
Disallow: /
User-agent: DuckDuckGo
Disallow: /

				
			
				
					# Autorise tous les autres robots d'indexation
User-agent: *
Allow: /

				
			
				
					# Autorise tous les autres robots d'indexation
User-agent: *
Allow: /
# Interdit l'accès aux répertoires /private/ et /assets/
Disallow: /private/
Disallow: /assets/

# Autorise l'accès aux sous-répertoires spécifiques de /assets/
Allow: /assets/css/
Allow: /assets/img/
Allow: /assets/js/
Allow: /assets/fonts/

# Directive Sitemap pour indiquer l'emplacement du sitemap XML
Sitemap: https://www.example.com/sitemap.xml

				
			

Quelques exemples de directives :

Autoriser l'accès à tous les robots d'exploration à l'exclusion d'un d'entre eux

Permettre l’accès à tous les robots d’exploration, à l’exception de Yandex :

				
					User-agent: Yandex
Disallow: /
User-agent: *
Allow: /


				
			
Bloquer l'accès à certains type de fichiers pour tous les robots d'exploration

Refuser l’accès aux fichiers d’extension .odt et .docx

				
					User-agent: *
Disallow: /*.odt$
Disallow: /*.docx$



				
			
Bloquer l'accès à des images spécifiques pour un robot d'exploration

Refuser l’accès à deux images à Google Image  :

				
					User-agent: Googlebot-Image
Disallow: /images/background.jpg
Disallow: /images/arrow-right.png



				
			

Quelques problèmes identifiés lors de l'utilisation des fichiers robots.txt

Mise en ligne : Oubli de mettre à jour les directives

Oublier d’autoriser au moins un robot peut entraîner un blocage complet de l’indexation par les moteurs de recherche.

Blocage involontaire de JavaScript ou de CSS

Certains robots d’exploration dépendent de l’exécution de JavaScript et de la prise en compte du rendu CSS. Bloquer l’accès à ces ressources peut affecter négativement l’indexation et le classement dans les moteurs de recherche.

Oubli du slash à la fin des chemins

Les chemins spécifiés dans les directives « Disallow » et « Allow » doivent inclure un slash à la fin s’ils représentent des répertoires. Oublier le slash à la fin peut conduire à des interprétations incorrectes par les robots d’exploration.

Pour refuser l’accès à tous les ce qui se trouve dans la partie « private » d’un site web à tous les moteurs d’exploration, il ne faut pas utiliser la syntaxe suivante qui signifierait que l’on refuse l’accès à un fichier nommé « private »

				
					User-agent: *
Disallow: /private




				
			

La syntaxe correcte

				
					User-agent: *
Disallow: /private/




				
			
Utilisation de chemins absolus à la place de chemins relatifs

Les chemins spécifiés dans les directives « Allow » et « Disallow » doivent être relatifs à la racine du site. Les chemins absolus ne sont pas pris en compte.

Mauvaise syntaxe

				
					User-agent: *
Disallow: http://www.example.com/private/   # Incorrect





				
			

Utilisation correcte

				
					User-agent: *
Disallow: /private/




				
			
Utilisation de chemins relatifs à la place de chemins absolues

Les chemins spécifiés dans les directives « Allow » et « Disallow » doivent être relatifs à la racine du site. Les chemins absolus ne sont pas pris en compte.

Mauvaise syntaxe

				
					User-agent: *
Allow:/

Sitemap: /sitemap.xml    # Incorrect





				
			

Utilisation correcte

				
					User-agent: *
Allow:/

Sitemap: https://www.example.com/sitemap.xml   # Correct

				
			
Ignorer l'importance de la distinction entre majuscules et minuscules.

Il est donc important d’utiliser la casse correcte dans les noms d’agents d’utilisateur et de chemins.

Par exemple si votre fichier se nomme « Fichier.pdf » il est important de conserver le F majuscule dans le fichier robots.txt
Mauvaise syntaxe

				
					User-agent: *
Disallow: /documents/Fichier.pdf

				
			

Syntaxe correcte

				
					User-agent: *
Disallow: /documents/fichier.pdf    # Incorrect if the file name is: Fichier.pdf

				
			
Oublier le chemin

Lorsque l’on souhaite que les moteurs d’exploration n’explore pas l’intégralité du site oublier le « / » peut avoir l’effet inverse.

La syntaxe suivante

				
					User-agent: *
Disallow:

				
			

À la même impacte que la syntaxe suivante

				
					User-agent: *
Allow: /
				
			

La bonne syntaxe 

				
					User-agent: *
Disallow: /

				
			
Aller au contenu principal