This page has been robot translated, sorry for typos if any. Original content here.

Fichier Robots.txt

Si vous vous êtes déjà interrogé sur les statistiques de visites sur votre site, vous devriez avoir remarqué que périodiquement il est visité par divers moteurs de recherche. Naturellement, ce ne sont pas des gens, mais des programmes spéciaux, souvent appelés «robots». Les "robots" parcourent également le site pour indexer la ressource web, de sorte qu'elle peut ensuite être trouvée à l'aide du moteur de recherche, dont le "robot" était en train d'indexer.

Tous les "robots" avant d'indexer la ressource recherchent un fichier nommé robots.txt dans le répertoire racine de votre site. Ce fichier contient des informations sur les fichiers que les "robots" peuvent indexer, mais ceux qui ne le sont pas. Ceci est utile dans les cas où vous ne voulez pas indexer certaines pages, par exemple, contenant des informations "privées".

Le fichier robots.txt est obligé de posséder le format de fichier texte pour Unix. Certains éditeurs peuvent convertir des fichiers Windows ordinaires, parfois le client FCT peut le faire. Le fichier est constitué d'enregistrements contenant chacun une paire de champs: une ligne avec le nom de l'application client (user-agent), ainsi qu'une ou plusieurs lignes commençant par la directive Disallow:
<Champ> ":" <valeur>

La chaîne User-agent contient le nom "robot". Par exemple:
Utilisateur-agent: googlebot

Si vous accédez à tous les robots, vous pouvez utiliser le caractère générique "*":
Utilisateur-agent: *

Les noms des robots peuvent être trouvés dans les journaux d'accès à votre serveur Web.

L'autre partie de la commande est constituée des lignes Disallow. Ces lignes sont des directives pour le "robot" donné. Ils disent au "robot" quels fichiers et / ou répertoires le robot est interdit d'indexer. Par exemple:
Disallow: email.htm

La directive peut également avoir le nom du catalogue:
Disallow: / cgi-bin /

Dans les directives Disallow, les caractères génériques peuvent également être utilisés. La norme dicte que la directive / bob empêchera les araignées d'indexer /bob.html, aussi /bob/index.html.

Si la directive Disallow devient vide, cela signifie que le robot peut indexer tous les fichiers. Au minimum, une directive Disallow doit être présente pour chaque champ User-agent, afin que robots.txt soit considéré comme correct. Robot complètement vide.txt signifie alors bla bla bla, comme si ce n'était pas du tout commun.