, Le format basé sur XML Sitemap
- Les définitions de XML-tags
- Masking caractères
- Utilisation de fichiers d'index Sitemap
- emplacement du fichier Sitemap
- Vérifiez votre site
- Protocole d' extension des Sitemaps <
- Notifications pour les robots des moteurs de recherche ]
- Foire aux questions
Ce document décrit le protocole Sitemap XML-schema.
Le format du protocole Sitemap se compose de XML-tags. Toutes les valeurs de données dans un site doivent être masqués . Le fichier doit utiliser encodage UTF-8.
Le site doit:
- Commencer par une balise d'ouverture
< urlset >, et se terminer par une balise de fermeture</urlset>. - Spécifiez l'espace de noms (norme de protocole) dans la balise
<urlset>. - Démarrez l' enregistrement
< url >pour chaque adresse URL de la balise XML parent. - Inclure entrée enfant
< loc >pour chaque balise parent<url>.
Toutes les balises sont facultatives. Le soutien à ces balises facultatives peut varier en fonction du moteur de recherche. Pour plus d'informations, reportez-vous à la documentation du moteur de recherche.
En outre, toutes les URL des adresses dans un site doivent être d'un hôte unique, tel que www.example.com ou store.example.com. Pour plus d' informations. Voir l' emplacement du fichier Sitemap
Exemple de fichier Sitemap XML-
L'exemple suivant montre un site qui contient une seule adresse URL et utilise toutes les balises optionnelles. Les balises optionnelles sont en italique.
<?xml version="1.0" encoding="UTF-8"?> < urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < url > < loc >http://www.example.com/</loc> < lastmod >2005-01-01</lastmod> < changefreq >monthly</changefreq> < priority >0.8</priority> </url> </urlset> Voir. Aussi l'exemple de plusieurs URL adresses .
Les définitions de XML-tags
Ce qui suit décrit les XML-tags disponibles.
| attribut | description | |
|---|---|---|
<urlset> | obligatoire | Il encapsule le fichier et fait référence à la norme de protocole actuel. |
<url> | obligatoire | tag parent pour chaque entrée URL adresses. Les balises sont des enfants de cette balise. |
<loc> | obligatoire | Adresse URL de la page. Ceci, l'adresse URL doit commencer par le préfixe (par exemple, HTTP) et une barre oblique, si votre serveur web exige. Cette valeur ne doit pas dépasser 2048 caractères. |
<lastmod> | optionnel |
fichier Date de la dernière modification. Cette date doit être dans le format de l'heure W3C . Ce format permet si nécessaire d'omettre la partie de temps, et utiliser AAAA-MM-JJ. Notez que cette balise est pas lié au titre de "If-Modified-Since (304)", le serveur peut revenir, et les moteurs de recherche peuvent utiliser des informations différentes de ces deux sources. |
<changefreq> | optionnel |
La fréquence probable des modifications apportées à cette page. Cette valeur fournit des informations générales aux moteurs de recherche et peut ne pas correspondre exactement à quelle fréquence ils rampent la page. Les valeurs valides sont:
La valeur «toujours» devrait être utilisé pour décrire les documents qui changent à chaque fois que vous accédez à ces documents. La valeur «jamais» devrait être utilisé pour décrire URL adresses archivés. Gardez à l' esprit que la valeur de cette balise est considérée comme une indication et non une commande. Malgré le fait que les robots des moteurs de recherche considèrent cette information lors de la prise de décisions, ils peuvent explorer des pages marquées «horaire» moins souvent que cela, et les pages marquées "par an" - le plus souvent dirigé. Scanners peuvent périodiquement ramper pages marquées «jamais» à gérer les changements inattendus à ces pages. |
<priority> | optionnel |
La priorité de cette URL par rapport aux autres URL de votre site. La plage valide - de 0.0 à 1.0. Cette valeur n'a aucune incidence sur la comparaison de la façon dont vos pages vers des pages sur d'autres sites - il ne permet aux moteurs de recherche savent quelles pages vous jugez le plus important pour les robots d'exploration. La priorité de la page par défaut - 0,5. S'il vous plaît noter que la priorité que vous affectez à une page, ne modifie pas la position de votre URL sur les pages de résultats d'un moteur de recherche. Les moteurs de recherche utilisent ces informations lors du traitement des URL, qui appartiennent au même site, vous pouvez donc utiliser cette balise pour augmenter la probabilité de la présence dans l'index de recherche vos pages les plus importantes. En outre, s'il vous plaît noter que l'attribution d'une priorité élevée à l'ensemble de l'URL de votre site n'a pas de sens. Comme la priorité - relative, ce paramètre est utilisé pour déterminer l'ordre de traitement au sein de l'URL du site. |
Masking caractères
Le fichier Sitemap doit être UTF-8 codé (vous pouvez généralement le faire lorsque vous enregistrez le fichier). Dans les fichiers XML, toutes les valeurs de données (y compris les URL adresses) doivent utiliser des caractères d'échappement entité figurant dans le tableau ci-dessous.
| symbole | masquage | |
|---|---|---|
| Ampersand | & | & |
| apostrophes | ' | ' |
| Les guillemets doubles | " | " |
| plus grande | > | > |
| moins | < | < |
En outre, pour tous les URL (y compris l'URL de votre site) doit être entité échappé et codé pour la lisibilité par le serveur Web sur lequel ils sont placés. Toutefois, si pour créer votre URL que vous utilisez un quelconque script, outil, ou journal (autre chose que de les taper à la main), ce qui est généralement déjà fait pour vous. Assurez - vous que toutes les URL adresses correspondent à la norme de la RFC-3986 pour l'URI, la norme RFC-3987 pour l'IRI et XML standard .
Voici un exemple d' URL adresses, qui utilise un caractère autre que l'ASCI ( ü ), ainsi que d' un caractère qui exige entité échapper ( & ):
http://www.example.com/ümlat.php&q=name Ci-dessous est la même adresse URL donnée dans la norme ISO-8859-1 codé (pour l'hébergement sur un serveur qui utilise ce codage) et d'échappement d'URL:
http://www.primer.ru/%FCmlat.html&q=name Ci-dessous est la même adresse URL est un UTF-8 (pour l'hébergement sur un serveur qui utilise ce codage) et en utilisant le masque:
http://www.example.com/%C3%BCmlat.php&q=name Ci-dessous est la même adresse URL, mais en utilisant le masque:
http://www.example.com/%C3%BCmlat.php&q=name Exemple de fichier Sitemap XML-
L'exemple suivant montre un plan Sitemap en format XML. Plan dans cet exemple comprend un petit nombre d'URL adresses, dont chacune utilise une combinaison de différents paramètres facultatifs.
<?xml version="1.0" encoding="UTF-8"?> < urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < url > < loc >http://www.example.com/</loc> < lastmod >2005-01-01</lastmod> < changefreq >monthly</changefreq> < priority >0.8</priority> </url> < url > < loc >http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc> < changefreq >weekly</changefreq> </url> < url > < loc >http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc> < lastmod >2004-12-23</lastmod> < changefreq >weekly</changefreq> </url> < url > < loc >http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc> < lastmod >2004-12-23T18:00:15+00:00</lastmod> < priority >0.3</priority> </url> < url > < loc >http://www.example.com/catalog?item=83&desc=vacation_usa</loc> < lastmod >2004-11-23</lastmod> </url> </urlset>
Utilisation de fichiers d'index Sitemap (de regrouper plusieurs fichiers Sitemap)
Vous pouvez fournir plusieurs fichiers Sitemap, mais chacun de ces fichiers ne devrait pas être plus de 50 000 une URL, et la taille de chacun de ces fichiers ne doivent pas dépasser 10 MB. Si fichier Sitemap nécessaire peut être compressé en utilisant gzip, pour réduire les exigences de bande passante. Cependant, la taille du fichier sitemap sans compression ne doit pas dépasser 10 MB. Si vous voulez inscrire plus de 50.000 URL adresses, vous devez créer plusieurs fichiers Sitemap.
Si vous voulez envoyer plusieurs fichiers Sitemap, vous devez répertorier chaque fichier dans un fichier d'index Sitemap. Un fichier d'index Sitemap peut être transféré à 1000 fichiers Sitemap. La taille de ce fichier ne doit pas dépasser 10 Mo (10 485 60 octets) et peut être comprimé. Vous pouvez avoir plusieurs fichiers Sitemap. Le format d'un index Sitemap XML-fichier est très similaire au format Sitemap fichier XML.
fichier d'index Sitemap doit:
- Commencer par une balise d'ouverture
< sitemapindex >, puis mettre la balise de fermeture</sitemapindex>. - Ajouter une entrée
< sitemap >chaque site comme un XML-tag parent. - Inclure entrée enfant
< loc >pour chaque balise parent<sitemap>.
tag Facultatif < lastmod > est également disponible pour les fichiers d'index Sitemap.
Remarque. fichier d'index Sitemap ne peut spécifier Sitemap, qui sont situés sur le même site que le fichier d'index Sitemap. Par exemple, http://www.vashsait.ru/sitemap_index.xml fichier d'index peut inclure des fichiers Sitemap placés sur le site http://www.vashsait.ru, mais pas sur le site ou http http://www.primer.ru : //vashkhost.vashsait.ru. Pour un fichier d'index Sitemap, ainsi que pour les fichiers Sitemap doivent utiliser UTF-8.
XML Exemple de Plan du site Index
L'exemple suivant montre un indice de Plan du site qui répertorie deux Sitemaps.
<?xml version="1.0" encoding="UTF-8"?> < sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> < sitemap > < loc >http://www.example.com/sitemap1.xml.gz</loc> < lastmod >2004-10-01T18:23:17+00:00</lastmod> </sitemap> < sitemap > < loc >http://www.example.com/sitemap2.xml.gz</loc> < lastmod >2005-01-01</lastmod> </sitemap> </sitemapindex> Remarque: URL adresses Plan du site, comme toutes les valeurs de vos fichiers XML, doit être échappé entité .
Définitions Plan du site Index XML-tags
| attribut | description | |
|---|---|---|
<sitemapindex> | obligatoire | Il encapsule des informations sur tous les fichiers Sitemap dans ce fichier. |
<sitemap> | obligatoire | Il encapsule des informations sur un plan Sitemap. |
<loc> | obligatoire |
Elle spécifie l'emplacement du site. Cet emplacement peut être un fichier Sitemap: fichier Atom, fichier RSS ou d'un simple fichier texte. |
<lastmod> | optionnel |
Indique le temps que le fichier Sitemap correspondant. Elle ne correspond pas au moment où l'une des pages du site. La valeur de la variable "lastmod" doit être présenté dans le format de l'heure W3C . En fournissant la dernière modification timestamp, vous activez les robots des moteurs de recherche pour récupérer une partie seulement des fichiers Sitemap dans l'index ie un robot peut seulement récupérer des fichiers Sitemap qui ont été modifiés après une certaine date. Ce mécanisme supplémentaire Sitemap extraction permet la découverte rapide de nouvelles URL sur de très grands sites. |
Autres formats de fichiers Sitemap
Le protocole Sitemap vous permet de fournir les informations sur les moteurs de recherche sur les pages, et nous recommandons son utilisation car il peut fournir des informations supplémentaires sur les pages, et pas seulement leur URL. En plus du protocole XML, nous soutenons également des flux RSS et des fichiers texte, qui fournissent des informations plus limitées.
flux de syndication
Vous pouvez fournir un canal RSS 2.0, Atom 0.3 ou 1.0. En règle générale, ce format est utilisé uniquement si votre site a déjà un flux de syndication. Notez que dans ce cas, les moteurs de recherche ne peuvent pas obtenir les informations sur toutes les URL de votre site, car ce canal fournit uniquement des informations sur la dernière URL. Cependant, les moteurs de recherche peuvent utiliser cette information pour trouver d'autres pages sur votre site en suivant les liens sur les pages de la chaîne pendant le balayage normal. Assurez-vous que le canal est dans le répertoire de plus haut niveau que vous voulez que les moteurs de recherche à ramper. Les moteurs de recherche extraire les informations à partir du flux de la manière suivante.
- Champ <link> - spécifie l'URL
- champ de date modifié (le champ <pubDate> pour les flux RSS et la date <changement> pour Atom) - indique quand chaque URL a été modifiée. Utilisez le champ de date de modification est facultative.
texte
Vous pouvez fournir un simple fichier texte qui contient une URL par ligne. Ce fichier texte doit satisfaire aux exigences suivantes.
- Dans ce fichier texte, dans chaque ligne doit être une seule URL. Cette URL ne peut pas contenir une nouvelle ligne introduite.
- Vous devez spécifier l'URL complète, y compris le préfixe http.
- Chaque fichier texte ne peut pas contenir plus de 50 000 une URL, et sa taille ne doit pas dépasser 10Mo (10,485,760 bytes). Si votre site comprend plus de 50 000 URL, vous pouvez séparer la liste en plusieurs fichiers de texte et d'ajouter chacun d'eux séparément.
- Le fichier texte doit utiliser encodage UTF-8. Il peut être spécifié lorsque vous enregistrez le fichier (par exemple, dans le "Bloc-notes" il est répertorié dans la boîte de dialogue "Codage" "Enregistrer sous").
- Ce fichier texte doit contenir aucune information autre que la liste des URL.
- Le fichier texte ne doit pas contenir en-tête ou le pied de page.
- Si fichier Sitemap nécessaire peut être compressé en utilisant gzip, pour réduire les exigences de bande passante.
- Ce fichier texte peut être donné un nom quelconque. Assurez - vous que vos URL adresses correspondent à la norme de la RFC-3986 pour les adresses URI-standard et la RFC-3987 pour le fichier IRI.
- Télécharger ce fichier texte dans le répertoire de plus haut niveau que vous voulez que les moteurs à ramper et assurez-vous que le fichier ne se fait pas à une URL qui sont dans un répertoire de niveau supérieur de recherche.
L'exemple suivant montre les lignes d'un fichier texte.
http://www.example.com/catalog?item=1
http://www.example.com/catalog?item=11
emplacement du fichier Sitemap
emplacement du fichier Sitemap définit un ensemble d'URL des adresses qui peuvent être inclus dans le Plan du site. fichier Sitemap situé dans le répertoire http://primer.ru/catalog/sitemap.xml peut inclure toutes les URL adresses, en commençant par http://primer.ru/catalog/, mais ne devrait pas inclure d'URL des adresses qui commencent par http://primer.ru/images/.
Si vous avez la permission de modifier http://primer.org/path/sitemap.xml fichier, vous pouvez supposer que vous avez également la permission de fournir des informations pour une http://primer.org/path/ URL préfixe. Des exemples d'URL valide dans http://primer.ru/catalog/sitemap.xml comprennent:
http://example.com/catalog/show?item=23 http://example.com/catalog/show?item=233&user=3453 fichier http://primer.ru/catalog/sitemap.xml URL adresses Irrecevable sont les suivantes:
http://example.com/image/show?item=23 http://example.com/image/show?item=233&user=3453 https://example.com/catalog/page1.php Cela signifie que toutes les URL adresses répertoriées dans le plan Sitemap doivent utiliser le même protocole (dans ce cas - HTTP) et doivent être placés sur le même hôte que le Plan du site. Par exemple, si votre site est situé à http://www.primer.ru/sitemap.xml, il est possible de spécifier l'adresse URL du sous-domaine http://subdomen.primer.ru.
URL adresses, qui sont considérés comme valides sont passés de nouvel examen. Il est fortement recommandé que vous placez votre plan Sitemap dans le répertoire racine de votre serveur web. Par exemple, si l'adresse de votre serveur - primer.ru, votre fichier d'index Sitemap doit être placé à http://primer.ru/sitemap.xml. Peut-être, dans certains cas, il faudra créer une variété de fichiers Sitemap pour différents chemins d'accès sur votre site (par exemple, si les autorisations de sécurité dans votre organisation sont définies de sorte que l'accès en écriture aux différents répertoires).
Si vous soumettez un site en utilisant un chemin qui contient le numéro de port, vous devez inclure le numéro de port dans le chemin d'URL de chacun, répertorié dans le fichier Sitemap. Par exemple, si votre fichier Sitemap est en http://www.primer.ru:100/sitemap.xml, chaque URL, figurant dans le site doit commencer par http://www.primer.ru:100.
fichiers Sitemap et croix d'envoi
Pour soumettre vos fichiers Sitemap à plusieurs sites avec un, vous avez besoin de «prouver» la propriété du noeud (s) pour laquelle l'adresse URL envoyée au fichier Sitemap. Voici un exemple. Par exemple, vous devez soumettre vos fichiers Sitemap à 3 nœuds: www.host1.com с файлом Sitemap sitemap-host1.xml www.host2.com с файлом Sitemap sitemap-host2.xml www.host3.com с файлом Sitemap sitemap-host3.xml
En outre, il est nécessaire de placer tous les fichiers de trois Sitemap sur un nœud: www.sitemaphost.com. Ainsi, URL-adresses Sitemaps seront les suivantes: http://www.sitemaphost.com/sitemap-host1.xml http://www.sitemaphost.com/sitemap-host2.xml http://www.sitemaphost.com/sitemap-host3.xml
Par défaut, cela se traduira par une erreur "cross-expédition", comme cela a été une tentative d'envoyer site www.host1.com URL adresses à travers votre site, qui est situé sur www.sitemaphost.com noeud (même pour les deux autres noeuds) . La première façon d'éviter cette erreur - est de prouver leur propriété (comme le droit de modifier le fichier) noeud www.host1.com. Cela peut être fait en modifiant le fichier robots.txt sur www.host1.com noeud pour pointer vers le site sur www.sitemaphost.com site.
Dans cet exemple, le fichier robots.txt sur le site contiendrait http://www.host1.com/robots.txt "Plan du site: http://www.sitemaphost.com/sitemap-host1.xml" ligne. En changeant le fichier robots.txt sur le site www.host1.com en référence à votre site dans www.sitemaphost.com site, vous êtes indirectement prouvé que le propriétaire du site www.host1.com. En d'autres termes, qui ne serait pas gouverné par un fichier robots.txt sur le site www.host1.com, il fait confiance au fichier Sitemap sur http://www.sitemaphost.com/sitemap-host1.xml site pour le contenu des sites www URL adresses. host1.com. La même procédure peut être répétée pour les deux autres unités.
Maintenant, vous pouvez envoyer votre plan Sitemap à www.sitemaphost.com noeud.
Si un fichier robots.txt indique un site particulier, comme http://www.host1.com/robots.txt, cela indique un site ou d'un fichier d'index Sitemap sur un autre nœud. Probablement, cela signifie que pour chaque fichier Sitemap final, tels http://www.sitemaphost.com/sitemap-host1.xml, toutes les adresses URL appartiennent à un noeud qui pointe vers eux. En effet, comme mentionné précédemment, il est prévu que le fichier du site contiendra l'adresse URL à un seul noeud.
Vérifiez votre site
Pour déterminer les éléments et attributs qui peuvent apparaître dans votre fichier Sitemap, utilisez le XML schéma suivant. Ce schéma peut être téléchargé en utilisant les liens ci-dessous.
Pour un fichier Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd
Pour les fichiers d'index Sitemap: http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd
Un certain nombre d'outils pour vous aider à valider la structure de votre site sur la base de ce schéma. Vous pouvez trouver une liste d'outils pour travailler avec des fichiers XML dans chacun des endroits suivants:
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
Pour vérifier votre site ou Sitemap fichier d'index pour ce régime à XML-fichier que vous souhaitez ajouter des en-têtes supplémentaires, comme indiqué ci-dessous.
Plan du site:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> ... </url> </urlset> fichier d'index Sitemap:
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> ... </sitemap> </sitemapindex>
L'extension du protocole Sitemaps
Le protocole Sitemap peut être étendue avec votre propre espace de noms. Il suffit de spécifier cet espace de noms dans l'élément racine. Par exemple:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9" url="http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:example="http://www.example.com/schemas/example_schema"> <!-- namespace extension --> <url> <example:example_tag> ... </example:example_tag> ... </url> </urlset>
Informer les robots des moteurs de recherche
Une fois que votre site est créé et placé sur un serveur web, il est nécessaire d'informer sur le sort des moteurs de recherche de fichiers qui prennent en charge ce protocole. Cela peut être fait comme suit.
- transfert de fichiers Sitemap à l' aide d' une interface de transmission de moteur de recherche
- comment spécifier l'emplacement du site dans votre fichier robots.txt
- l' envoi HTTP-demande
Les moteurs de recherche peuvent récupérer le fichier Sitemap et leurs robots pour accéder URL adresses.
Transfert de votre site à l'aide d'une interface de moteur de recherche
Pour soumettre votre site directement à un moteur de recherche, qui offre la possibilité de recevoir des informations sur le statut et le traitement des erreurs, reportez-vous au moteur de recherche de documentation.
Spécification de l'emplacement du site dans votre fichier robots.txt
Vous pouvez spécifier l'emplacement du site à l'aide d'un fichier robots.txt. Pour ce faire, il suffit d'ajouter la ligne suivante:
Sitemap: <sitemap_location> URL <sitemap_location> doit être une URL complète du site, tels que: http://www.primer.ru/sitemap.xml
Cette instruction ne dépend pas de la chaîne de l'agent utilisateur, donc peu importe où il est placé dans le fichier. Si vous avez un fichier d'index Sitemap, vous pouvez inclure l'emplacement de ce fichier. Pour la liste de chaque plan Sitemap répertorié dans le fichier d'index est pas nécessaire.
Vous pouvez spécifier plusieurs fichiers Sitemap pour chacun de votre fichier robots.txt.
Sitemap: <sitemap1_location> Sitemap: <sitemap2_location> Transfert de votre site à l'aide d'une requête HTTP
Pour soumettre votre site en utilisant un HTTP-demande (remplacer <searchengine_URL> sur l'URL, les moteurs de recherche), créer une demande à l'URL des adresses suivantes.
<searchengine_URL>/ping?sitemap=sitemap_url Например, если файл Sitemap находится в архивном файле http://www.primer.ru/sitemap.gz, URL-адрес будет следующим:
<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz Добавьте кодировку URL для всех символов после /ping?sitemap=:
<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.vashsait.com%2Fsitemap.gz Можно отправить http-запрос, используя "wget", "curl" или другой механизм по выбору. Успешный запрос возвратит код отклика HTTP 200; если получен другой отклик, необходимо повторно передать запрос. Код отклика HTTP 200 указывает только на то, что поисковая система получила Ваш файл Sitemap, но это не значит, что сам файл Sitemap или содержащиеся в нем URL допустимы. Самый простой способ — создать автоматическое задание для регулярного создания и передачи файлов Sitemap.
Примечание. Предоставляя файл индекса Sitemap, необходимо инициировать только один http-запрос, который включает местоположение файла индекса Sitemap; отправлять отдельные запросы для каждого файла Sitemap, указанного в этом индексе, не нужно.
Как исключить содержание
Протокол Sitemaps предоставляет поисковым системам информацию о содержании, которое необходимо включить в индекс. Чтобы сообщить поисковым системам о содержании, которое не следует включать в индекс, используйте файл robots.txt или метатег robots. Более подробную информацию о том, как исключить содержание из поисковых систем, см. на странице robotstxt.org .
Часто задаваемые вопросы
Как представлять URL в файле Sitemap?
Имеет ли значение, какой метод кодирования символов используется для создания моих файлов Sitemap?
Как рассчитать дату последнего изменения?
Куда поместить мой файл Sitemap?
Какой размер файла Sitemap является допустимым?
Что нужно делать после создания файла Sitemap?
Нужно ли полностью указывать URL-адреса в файле Sitemap?
URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти индентификаторы?
Влияет ли положение URL-адреса в файле Sitemap на его использование?
Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?
Вопрос. Как представить URL-адрес в файле Sitemap?
В XML-файлах для всех значений данных (включая URL-адреса) маскирование принято использовать для следующих символов: амперсанд (&), одинарная кавычка ('), двойная кавычка ("), знак "меньше" (<) и знак "больше" (>). Кроме того, Вы должны убедиться в том, что все URL-адреса соответствуют стандарту RFC-3986 для URI, стандарту RFC-3987 для IRI и XML-стандарту . Если для создания URL-адресов используются сценарии, маскирование символов в URL-адресе обычно является частью этого сценария. Однако для них все равно необходимо применять маскирование символов. Например, следующий сценарий "python" использует маскирование http://www.primer.ru/view?widget=3&count>2
$ python Python 2.2.2 (#1, Feb 24 2003, 19:13:11) >>> import xml.sax.saxutils >>> xml.sax.saxutils.escape("http://www.example.com/view?widget=3&count>2") В приведенном выше примере результирующим является следующий URL-адрес:
http://www.example.com/view?widget=3&count>2 Вопрос. Имеет ли значение метод кодирования символов, который используется для создания моих файлов Sitemap?
Да. Для файлов Sitemap должна использоваться кодировка UTF-8.
Используйте кодировку W3C Datetime для меток времени "lastmod" и всех других дат и времен в этом протоколе. Например, 2004-09-22T14:12:14+00:00.
Эта кодировка позволяет опустить сегмент времени формата ISO8601; например, использование формата 22-09-2004 также допустимо. Однако, если Ваш сайт часто изменяется, рекомендуется включить сегмент времени, чтобы сканеры получили более полную информацию о Вашем сайте.
Вопрос. Как рассчитать дату последнего изменения?
Для статических файлов это фактическая дата обновления файла. Для получения этой даты можно использовать команду "UNIX date":
$ date --iso-8601=seconds -u -r /home/foo/www/bar.php >> 2004-10-26T08:56:39+00:00 Для многих динамических URL-адресов можно легко рассчитать дату последнего изменения на основе даты изменения исходных данных или с помощью приближения на основе периодических обновлений (если применимо). Даже использование приблизительной даты или отметки времени может помочь сканерам избежать сканирования URL-адресов, которые не были изменены. Это позволяет снизить требования, предъявляемые к пропускной способности канала и к процессорам веб-серверов.
Вопрос. Куда поместить мой Sitemap?
Настоятельно рекомендуется поместить файл Sitemap в корневой каталог на Вашем HTML-сервере по адресу http://primer.ru/sitemap.xml.
Возможно, в некоторых случаях нужно будет создать несколько файлов Sitemap для различных путей на Вашем сайте, — например, если полномочия доступа в Вашей организации установлены таким образом, что доступ с правом записи к различным каталогам предоставляется отдельно.
Если у Вас есть разрешение на загрузку файла http://primer.ru/path/sitemap.xml, то предполагается, что у Вас также имеется разрешение размещать отчеты по метаданным по адресу http://primer.ru/path/.
Все URL-адреса, указанные в том или ином файле Sitemap, должны размещаться на том же хосте, что и файл Sitemap. Например, если файл Sitemap расположен по адресу http://www.primer.ru/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://subdomen.primer.ru. Если файл Sitemap расположен по адресу http://www.primer.ru/mojapapka/sitemap.xml, в нем могут быть указаны URL-адреса из субдомена http://www.primer.ru.
Вопрос. Какой размер файла Sitemap является допустимым?
Размер файлов Sitemap не должен превышать 10 МБ (10485760 байт), и эти файлы не должны включать более 50000 URL. Эти ограничения помогают исключить остановки веб-сервера при размещении очень больших файлов. Это означает, что если Ваш сайт содержит более 50000 URL или размер файла Sitemap превышает 10 МБ, необходимо создать несколько файлов Sitemap и использовать файл индекса Sitemap . Необходимо использовать файл индекса Sitemap даже для небольшого сайта, если предполагается, что количество URL превысит 50000 или размер файла будет больше 10 МБ. В файле индекса Sitemap может быть перечислено не более 1000 файлов Sitemap. Размер этого файла не может превышать 10 МБ. Кроме того, для сжатия файлов Sitemap можно использовать архиватор gzip.
Вопрос. На моем сайте десятки миллионов URL-адресов, можно ли передать только те из них, которые были изменены недавно?
Можно перечислить часто изменяемые URL-адреса лишь в некоторых файлах Sitemap, а затем использовать тег lastmod в файле индекса Sitemap для идентификации этих файлов Sitemap. После этого поисковые системы могут последовательно сканировать только измененные файлы Sitemap.
Вопрос. Что нужно делать после создания файла Sitemap?
После создания файла Sitemap сообщите о нем поисковым системам , передав его напрямую, проверив связь с ними или добавив местоположение файла Sitemap в файл robots.txt.
Вопрос. Необходимо ли полностью указывать URL-адреса в Sitemap?
Да. Необходимо включить протокол (например, HTTP) в Ваш URL-адрес. Кроме того, необходимо включить концевую косую черту, если этого требует Ваш веб-сервер. Например, адрес http://www.primer.ru/ является допустимым URL-адресом для файла Sitemap, а адрес www.primer.ru — нет.
Вопрос. В URL-адресах моего сайта используются оба префикса "http" и "https". Нужно ли перечислять оба варианта?
Non. Укажите в своих файлах Sitemap только одну версию URL-адреса. Добавление нескольких версий URL-адреса может привести к неполному сканированию Вашего сайта.
Вопрос. URL-адреса на моем сайте включают идентификаторы сеанса. Нужно ли удалять эти идентификаторы?
Да. Включение идентификаторов сеансов в URL-адреса может привести к неполному и излишнему сканированию Вашего сайта.
Вопрос. Влияет ли положение URL-адреса в файле Sitemap на его использование?
Non. Положение URL в файле Sitemap не влияет на то, как он будет использоваться или рассматриваться поисковыми системами.
Вопрос. На некоторых станицах моего сайта используются фреймы. Нужно ли включать URL-адреса набора фреймов или URL-адреса содержания фреймов?
Включите оба URL-адреса.
Вопрос. Можно ли использовать архиватор zip для моих файлов Sitemap, или их можно сжимать только с помощью архиватора gzip?
Используйте архиватор gzip для сжатия файлов Sitemap. Помните, что размер файла Sitemap (как в сжатом, так и в несжатом виде) не должен превышать 10 МБ.
Вопрос. Будет ли параметр приоритетности в XML-файле Sitemap влиять на рейтинг моих страниц в результатах поиска?
Параметр "приоритетность" в файле Sitemap используется для того, чтобы определить очередность обработки URL в пределах Вашего собственного сайта и не влияет на рейтинг страниц в результатах поиска.
Вопрос. Существует ли XML-схема, по которой можно проверить мой XML-файл Sitemap?
Да. XML-схема для файлов Sitemap приведена на странице http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd , а схема для файлов индекса Sitemap — на странице http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd . Дополнительную информацию о проверке файлов Sitemap см. здесь .
Вопрос. Куда мне обратиться, если у меня возникли другие вопросы по поводу использования протокола или процедуры отправки сведений о размещении файла Sitemap?
Обратитесь к доступной документации поисковых систем, чтобы получить дополнительную информацию относительно отправки сведений о размещении файла и о работе с файлами Sitemaps.

Commentaires
Commentant, gardez à l' esprit que le contenu et le ton de vos messages peuvent blesser les sentiments des gens réels, montrer du respect et de la tolérance à ses interlocuteurs, même si vous ne partagez pas leur avis, votre comportement en termes de liberté d'expression et de l' anonymat offert par Internet, est en train de changer non seulement virtuel, mais dans le monde réel. Tous les commentaires sont cachés à l'index, le contrôle anti - spam.