This page has been robot translated, sorry for typos if any. Original content here.

Fichier Robots.txt

Si vous avez déjà été intéressé par les statistiques sur les visites sur votre site, vous devriez avoir remarqué que périodiquement, il est visité par différents moteurs de recherche. Naturellement, ce ne sont pas des personnes, mais des programmes spéciaux souvent appelés "robots". Des "robots" parcourent le site et indexent la ressource Web afin de pouvoir la retrouver ultérieurement à l'aide du moteur de recherche dont le "robot" était engagé dans l'indexation.

Avant d'indexer une ressource, tous les "robots" recherchent un fichier nommé robots.txt dans le répertoire racine de votre site. Ce fichier contient des informations sur les fichiers que les robots peuvent indexer, mais qui ne le peuvent pas. Ceci est utile dans les cas où vous ne souhaitez pas indexer certaines pages, par exemple, contenant des informations "fermées".

Le fichier robots.txt est obligé de posséder un format de fichier texte pour Unix. Certains éditeurs peuvent convertir des fichiers Windows normaux, parfois un client FCT peut le faire. Le fichier est composé d'enregistrements, chacun contenant une paire de champs: une ligne avec le nom de l'application client (agent utilisateur), ainsi qu'une ou plusieurs lignes commençant par la directive Disallow:
<Champ> ":" <valeur>

La chaîne User-agent contient le nom "robot". Par exemple:
Agent utilisateur: googlebot

Si vous accédez à tous les robots, vous pouvez utiliser le caractère générique "*":
Agent utilisateur: *

Les noms de robot peuvent être trouvés dans les journaux d'accès à votre serveur Web.

Une autre partie de l’équipe est constituée de lignes Disallow. Ces lignes sont des directives pour ce "robot". Ils indiquent au "robot" quels fichiers et / ou répertoires il est interdit au robot d'indexer. Par exemple:
Interdit: email.htm

La directive peut également avoir un nom de répertoire:
Interdit: / cgi-bin /

Les directives d'interdiction peuvent également sembler utiliser des caractères génériques. La norme dicte que la directive / bob interdit aux araignées d’indexer /bob.html ainsi que /bob/index.html.

Si la directive Disallow devient vide, cela signifie que le robot peut indexer tous les fichiers. Au moins une directive Disallow doit être présente pour chaque champ User-agent afin que le fichier robots.txt soit considéré comme correct. Complètement vide, le fichier robots.txt signifie que bla bla lui-même, comme si ce n’était pas le cas en général.