Le fichier robots.txt

Si jamais vous êtes intéressé par les statistiques de visites sur votre site, vous devez avoir remarqué que visiter périodiquement les différents moteurs de recherche. Naturellement, cela ne concerne pas les personnes, mais des programmes spéciaux, qui sont souvent appelés "robots". "Robots" sont la navigation sur le site et l'index de la ressource web, donc il a été autorisé à trouver avec l'aide d'un moteur de recherche, dont le "robot" faisant l'indexation.

Tous les "robots" avant ressource d'indexation à la recherche à la racine de votre fichier robots.txt du site nommé. Ce fichier contient des informations sur les fichiers qui sont "robots" peuvent être indexés, mais qui ne sont pas. Ceci est utile dans ces cas, à quelle heure vous l'indexation de certaines pages non désirées, par exemple, contiennent "fermé" informations.

Le fichier robots.txt est obligé de tenir un format de fichier texte pour Unix. Certains éditeurs sont capables de convertir à Windows fichiers classiques, parfois, il peut faire le FCT-client. Le fichier se compose d'entrées, dont chacune contient une paire de champs: la chaîne avec le nom de l'application client (agent utilisateur), et une ou plusieurs lignes commençant par la directive Disallow:
<Champ> "," <value>

chaîne User-agent contient le nom du "robot". Par exemple:
User-agent: Googlebot

Si vous appliquez à tous les robots, vous pouvez utiliser le caractère générique "*":
User-agent: *

Les noms des robots sont autorisés à trouver dans les magazines l'accès à votre serveur web.

Une autre part de l'équipe se compose de lignes Disallow. Ces lignes - directives pour le "robot". Ils rapportent "robot" quels fichiers et / ou répertoires sont interdits d'indexer robots. Par exemple:
Disallow: email.htm

La directive peut aussi avoir le nom du dossier:
Disallow: / cgi-bin /

Les lignes directrices peuvent sembler Disallow utilisé comme wildcards. La norme exige que l'interdiction directive / bob "araignées" à l'index /bob.html également, aussi /bob/index.html.

Si la directive Disallow est vide, cela signifie que l'indice robot peut tous les fichiers. Au moins une directive Disallow doit être présent pour chaque champ User-agent, de sorte que robots.txt est considérée comme correcte. Complètement vide robots.txt signifie que bla bla chose comme si elle aurait été commune.