This page has been robot translated, sorry for typos if any. Original content here.

Fichier Robots.txt

Si vous avez déjà été intéressé par les statistiques sur les visites de votre site, vous devriez certainement avoir remarqué que divers moteurs de recherche le visitent périodiquement. Naturellement, ce ne sont pas du tout des gens, mais des programmes spéciaux qui sont souvent appelés "robots". Les "robots" parcourant le site indexent également la ressource Web, afin qu'elle puisse ensuite être trouvée à l'aide du moteur de recherche dont le "robot" était engagé dans l'indexation.

Tous les "robots" avant d'indexer une ressource recherchent dans le répertoire racine de votre site un fichier appelé robots.txt. Ce fichier contient des informations sur les fichiers que les robots peuvent indexer, mais qui ne le peuvent pas. Ceci est utile dans les cas où vous n'êtes pas intéressé par l'indexation de certaines pages, par exemple, contenant des informations "fermées".

Le fichier robots.txt est obligé de posséder un format de fichier texte pour Unix. Certains éditeurs peuvent convertir des fichiers Windows ordinaires, parfois un client FCT peut le faire. Le fichier est composé d'entrées, chacune contenant une paire de champs: une ligne avec le nom de l'application client (user-agent), ainsi qu'une ou plusieurs lignes commençant par la directive Disallow:
<Field> ":" <value>

La chaîne User-agent contient le nom "robot". Par exemple:
User-agent: googlebot

Si vous accédez à tous les robots, vous pouvez utiliser le caractère générique "*":
Agent utilisateur: *

Les noms des robots se trouvent dans les journaux d'accès à votre serveur Web.

Une autre partie de l'équipe est constituée de lignes d'interdiction. Ces lignes sont des directives pour ce "robot". Ils indiquent au "robot" quels fichiers et / ou répertoires l'indexation du robot est interdite. Par exemple:
Interdire: email.htm

La directive peut également avoir un nom de répertoire:
Interdire: / cgi-bin /

Les directives d'interdiction peuvent également sembler utiliser des caractères génériques. La norme stipule que la directive / bob interdit aux araignées d'indexer /bob.html ainsi que /bob/index.html.

Si la directive Disallow devient vide, cela signifie que le robot peut indexer tous les fichiers. Au moins une directive Disallow doit être présente pour chaque champ User-agent afin que robots.txt soit considéré comme correct. Le fichier robots.txt complètement vide signifie que bla bla lui-même, comme si ce n'était pas le cas en général.