This page has been robot translated, sorry for typos if any. Original content here.

Fichier Robots.txt

Si vous avez déjà été intéressé par les statistiques de visites sur votre site, vous devriez avoir remarqué que de temps en temps, divers moteurs de recherche le visitent. Naturellement, il ne s'agit pas de personnes, mais de programmes spéciaux, souvent appelés "robots". Les "robots" naviguant sur le site indexent également la ressource Web, de sorte qu'elle puisse être trouvée à l'aide du moteur de recherche dont le "robot" est engagé dans l'indexation.

Tous les "robots" avant l'indexation d'une ressource recherchent un fichier dans le répertoire racine de votre site avec le nom robots.txt. Ce fichier contient des informations sur les fichiers de robots pouvant être indexés, mais pas ceux qui le sont. Ceci est utile dans les cas où vous ne souhaitez pas que certaines pages soient indexées, par exemple, contenant des informations "fermées".

Le fichier robots.txt est obligé de posséder un format de fichier texte pour Unix. Certains éditeurs sont capables de convertir des fichiers Windows ordinaires, parfois le client FCT peut le faire. Le fichier est constitué d'enregistrements contenant chacun une paire de champs: une ligne avec le nom de l'application cliente (agent utilisateur), ainsi qu'une ou plusieurs lignes commençant par la directive Disallow:
<Champ> ":" <valeur>

La chaîne User-agent contient le nom "robot". Par exemple:
Agent utilisateur: googlebot

Si vous accédez à tous les robots, vous pouvez utiliser le caractère générique "*":
Agent utilisateur: *

Les noms des robots sont autorisés à figurer dans les journaux d’accès à votre serveur Web.

Une autre partie de l’équipe est constituée des lignes Disallow. Ces chaînes sont des directives pour ce "robot". Ils indiquent au robot quels fichiers et / ou répertoires il est interdit au robot d'indexer. Par exemple:
Interdit: email.htm

La directive peut également avoir un nom de répertoire:
Interdit: / cgi-bin /

Dans les directives Disallow, les caractères génériques peuvent également sembler être utilisés. La norme dicte que la directive / bob interdira aux spiders d’indexer également /bob.html, ainsi que /bob/index.html.

Si la directive Disallow devient vide, cela signifie que le robot peut indexer tous les fichiers. Au moins une directive Disallow doit être présente pour chaque champ User-agent, afin que le fichier robots.txt soit considéré comme valide. Entièrement vide, le fichier robots.txt signifie bla bla comme si ce n’était pas courant.