Computer lessons

Creating a sitemap. Using a Sitemap

In this guide we will cover the following questions:

What is a Sitemap?

This is a file that contains a list of links to all important pages of the site. That is, this document directs search engines to the main content on the site.

Why do you need a site map?

A sitemap is needed if the site has problems with indexing caused by:
1) a large number of pages;
2) lack of links (internal or external) to pages;
3) deep nesting on the site (confusing structure).

HTML vs XML sitemap

Sitemaps come in the following types:

  • HTML;

The simplest explanation of the difference between these formats is that an XML map is primarily intended for search engines, while HTML is primarily intended for users.

HTML map– This is just a general overview of the site, containing only the information and pages that users need to see. If you are on a website and are looking for a specific section, you can easily find it when you go to Sitemap HTML. While this type of sitemap is user-focused, it can also help your search engine rankings. This is one evidence that you care about the user experience of the site.

When creating an HTML sitemap, it is important to consider:

1. Structured content.

The site map should be clear and convenient for the user to understand. It is desirable that it include sections, categories, subcategories, etc.

2. Link anchors.

Protocol XML cards The site is intended for search robots. The XML file contains information about when the URL was last updated, how important it is, and how often changes occur.

Typically a Sitemap consists of the following XML tags:

Required:
– defines the protocol standard and encapsulates this file.
– содержит в себе информацию о URL-адресе (является родительским тегом).
https://hsectf.ru/en/ – содержит абсолютный URL-адрес.

Необязательные:
– указывает дату последнего изменения файла.
– указывает частоту смены файла.
– указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).

Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
— текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Требования Google и Яндекса к файлам Sitemap

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке .

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

3. Сохраняем в нужном нам формате.

4. Карта сайта готова.

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator .

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.

Исключить ненужные страницы можно и с помощью регулярных выражений.

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
– аналогично тегу содержит в себе URL изображения и дополнительную информацию.
– URL изображения.

Необязательные:
– подпись к изображению.
– место съёмки фотографии.
– название изображения.
– URL-лицензии изображения.

Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

– содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег , достаточно в одном теге несколько раз прописать для каждого видео на странице.
– включает в себя всю информацию о видео.
– URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
– заголовок, который должен совпадать с названием страницы, на которой отображается видео.
– описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.

Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google .

Где разместить карту сайта

Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

Подписаться на рассылку

Карту сайта можно сравнить с оглавлением в книге, содержащим перечень всех важнейших разделов. На сайте это такой каталог, где указаны ссылки на главные разделы и страницы веб-ресурса. В целом же в сайтмап находится следующая информация:

  • список URL-адресов страниц сайта в иерархическом порядке;
  • формат появившегося на сайте контента: текст, видео, картинки;
  • сведения о видео и изображениях, необходимые роботам для их внесения в базу данных и формирования поисковой выдачи;
  • информация о приоритетности страницы;
  • данные о внесении последних изменений документов и регулярности их обновлений;
  • сведения про другие версии веб-страницы.

Sitemap помогает посетителям и особенно роботам поисковиков быстро определять расположение всех самых необходимых для индексации страниц, а также их важность по отношению к другим документам, частоту и время последнего изменения, при этом делать как можно меньше «лишних» переходов. Sitemap помогает системе индексировать ресурс более эффективно.

Да, на мелких сайтах к любому документу можно перейти всего в пару кликов, но вот крупные содержат по несколько тысяч страниц и структура их куда сложнее. Без Sitemap на таких ресурсах будет сложно и посетителям, и поисковым ботам.

Исходя из вышеописанного можно выделить три основных ситуации, в ходе которых возникают проблемы с индексацией ресурса и нужен сайтмап:

  1. огромное число страниц;
  2. сложная структура ресурса;
  3. отсутствие внешних либо внутренних бэклинков на важные для индексации страницы.

Виды карт

Любой поисковик вносит страницы сайта в индекс постепенно, начиная с главной страницы и заканчивая документами с глубокой вложенностью это зависит какой имеет сайт.

TXT

Еще один метод оформления карты сайта – файл Sitemap в txt (текстовом формате). Здесь содержится перечень всех важных для индексации ссылок. А вообще данный вариант актуален для вебмастеров, которые не желают особо заморачиваться.

Да, в TXT карте можно тоже разместить 50 тысяч ссылок, но в ней нет возможности указывать дату последнего изменения и относительную приоритетность документов.

Пример

1. http://site.com/; 2. http://site.com/page1/; 3. http://site.com/page2.

Требования Яндекса и Google к картам

Я выделил 6 общих требований, которые два популярнейших поисковика выдвигают к файлу Sitemap:

  1. Необходимо применять UTF-8 кодировку.
  2. Лимит по количеству URL-адресов – до 50 тысяч ссылок.
  3. Если размер файла превышает 10 МБ, поделите его на несколько карт и пропишите их все в файле индекса Sitemap.
  4. В процессе обращения к сайтмапу сервер должен отправлять ответ 200 OK.
  5. Вносите исключительно канонические УРЛы документов: не должно быть никаких идентификаторов сессий или GET-параметров.
  6. Ссылки в файле должны вести на тот же домен, где располагается сама карта сайта. Казалось бы, это элементарное требование. Но на деле многие вебмастера, имеющие несколько веб-ресурсов, перенося шаблон с файлом Sitemap забывали поменять уже имеющиеся ссылки на актуальные.

Есть у поисковых систем и свои, уникальные требования.

Яндекс:

  • максимально допустимый размер – 10 МБ;
  • допускается применять URL-адреса с кириллическими символами.
  • максимально допустимый размер файла – 50 МБ;
  • работает только с латинскими символами и цифрами (кириллические домены можно перекодировать в латинские посредством Punycode).

Важно! Для уменьшения требований к пропускной способности канала применяется архиватор gzip. 10 и 50 МБ – это размеры файлов Sitemap до сжатия архиваторов, а не после.

Влияет ли карта сайта на продвижение?

Отмечу, что без сайтмапа поисковики не понизят ваш ресурс в выдаче. Поисковые системы не глупые и даже если у вас на сайте нет Sitemap, они все равно его.

Сейчас поисковые машины даже без карты сайта сканируют страницы и включают их в выдачу довольно хорошо. Да и в теории они самостоятельно должны этим заниматься, безо всякой помощи со стороны вебмастеров.

Но нередко возникают проблемы, когда роботы дают сбой и не могут просканировать все страницы. Зачастую это случается из-за:

  • глубокой вложенности некоторых разделов, для перехода на которые необходимо перейти по множеству ссылок;
  • динамических УРЛов.

Поэтому в интересах вебмастеров помогать поисковым системам.

Наличие карты сайта позволяет избежать данных ситуаций. Sitemap в определенной степени положительно влияет на SEO продвижение веб-ресурса, потому что делает для роботов процесс обхода и включения в поиск страниц быстрее и легче.

Еще с данным файлом у вашего ресурса уменьшается риск превратиться из первоисточника в копипаст вследствие того, что страницы попадут в индекс раньше, чем конкурентам удастся украсть контент с него и разместить у себя.

Важно! Добавляйте в Sitemap основные страницы, играющие ключевую роль в оптимизации сайта, чтобы они попали в выдачу в первую очередь. Не прописывайте в файле страницы со служебной информацией, динамическими URL, тегами и запрещенные к индексации.

Можно ли без Sitemap?

Ответ очевидный – да. Поисковики воспринимают sitemap.xml лишь в качестве рекомендации для роботов. На практике у веб-ресурсов, где нет карты сайта, Яндекс отмечает наличие возможных, а не критичных либо фатальных проблем.

Как было написано выше, поисковые роботы способны самостоятельно и эффективно индексировать ресурсы, но крупным сайтам и тем, где есть динамические УРЛы, лучше сделать Sitemap, к тому же это не займет много времени, а в дальнейшем может прилично сэкономить ваши нервы.

Как создать карту сайта?

К данному процессу нужно подойти ответственно, потому что здесь необходимо указать основные страницы, которые вы хотите видеть в поисковой выдаче.

HTML

Сайтмап в формате HTML – это прежде всего навигация по разделам сайта для пользователей. Если веб-ресурс имеет лишь несколько сотен страниц, у него простая структура и понятное меню, подключать HTML-карту необязательно.

Но когда сайт масштабный и структура довольно сложная, есть смысл создать страницу с перечнем ссылок на основные страницы.

Учитывайте нишу, к которой относится ваш ресурс и соответственно его целевую аудиторию. Если у вас посетители преимущественно пожилого возраста, карта сайта поможет им сориентироваться в сайте, так как в главном меню разобраться сложнее.

Есть множество способов, как создать Sitemap в формате HTML на движке . Лучше всего сделать это посредством плагина Hierarchical HTML Sitemap и ему подобных. Скачиваете плагин для своей , устанавливаете, а дальше активируете надстройку для установки файла. После – размещаете выданный плагином шорткод на страницу, где хотите подключить сайтмап.

Карта сайта будет доступна по адресу:

http://site.com/sitemap.html

Для других движков есть такие решения:

  • Drupal – плагин Sitemap .
  • Joomla! – плагин OSMap .

Тем кто пользуется OpenCart не нужно беспокоиться о создании HTML карты сайта, потому что она появляется там автоматически.

XML

Если решили создать XML карту сайта, определитесь, каким способом будете это делать:

  1. Cгенерировать сайтмап при помощи движка управления ресурсом , если у него есть соответствующая встроенная функция, используя различные плагины и модули.
  2. Скачать ПО-генератор. Большинство из этих программ платные, но благодаря ним вы можете с легкостью создавать XML файл как для одного, так и для нескольких ресурсов. Вот самые популярные: WonderWebWare SiteMap Generator и SiteMap XML Dynamic SiteMap Generator .
  3. Скачать файл Sitemap онлайн генератором. Выбор специальных сервисов сегодня очень велик, у всех у них разные ограничения и возможности. К примеру, на сайте xml-sitemaps.com настраивается изобилие параметров карты, но разместить в ней можно максимум 500 ссылок.
  4. Ручное подключение Sitemap.

С помощью генератора онлайн

Преимущество данного способа заключается в отсутствии привязки к какому-либо CMS. Онлайн генераторы позволяют создать карту сайта для веб-ресурсов на любых движках и даже на статичных HTML сайтах.

Минус же использования генераторов в том, что бесплатные сервисы сильно ограничены по количеству страниц и больше подходят, например, для сайтов-визиток, где есть несколько страниц и новые появляться уже не будут.

Если же ресурс регулярно пополняется новыми статьями, то бесплатные генераторы не подойдут. Они не обновляют Sitemap, поэтому там не будут появляться новые URL-адреса, из-за чего файл быстро станет неактуальным.

Самый популярный генератор:

Приведу пример, как создать XML карту с XML-Sitemaps.

Заходите на сайт сервиса и указываете адрес своего ресурса, кликаете на кнопку START.

Через несколько минут сайтмап в формате XML будет сгенерирован. Далее закачиваете файл на жесткий диск компьютера.

Затем нужно загрузить Sitemap в корневую папку сайта при помощи FTP-клиента, к примеру, WinSCP . Если не знаете где искать корневой каталог, введите в поиске index.html. Сюда загружаете файл.

Через программное обеспечение

Создать XML карту сайта данным способом не так уж сложно. Сейчас я покажу, как это сделать на примере программы для ПК Majento :

  1. ресурс.
  2. В верхней вкладке заходите в раздел «Сайты», затем кликаете «Генерировать Sitemap».
  3. Сохраняете файл в.xml формате.
  4. Все – карта на вашем сайте.

Посредством плагинов для CMS

Данный вариант куда удобнее, чем бесплатные генераторы онлайн. Плагины для движков управления сайтами более функциональные, позволяют изменять параметры карты сайта. А один из главных плюсов – наличие надстроек для автоматического обновления файла сразу после появления новых документов, а также уведомления о них поисковым системам.

Для сайтов на базе WordPress одним из лучших вариантов является модуль Google XML Sitemaps . Установите, а затем активируйте плагин. Далее зайдите в настройки.

В основных параметрах включите оповещения для Google, укажите адрес карты сайта в файле robots и активируйте функцию сжатия Sitemap.xml.

Перейдите в «Приоритет статьи» и отключите функцию автоматической приоритезации страниц. Потом вам нужно будет указать приоритеты публикаций самостоятельно. Загляните в раздел «Содержание Sitemap». Включите в карту сайте исключительно те типы документов, которые вы хотите проиндексировать.

Не забудьте поставить галочку напротив Include the last modification time. Так модуль покажет роботам в сайтмапе дату последнего обновления страницы, что поможет им рассчитать дату повторного обхода сайта.

Опция Change Frequencies позволяет выставить периодичность переиндексации определенных типов документов. Зачастую поисковики не следуют тегу changefreq, прописанному в файле Sitemap, потому что они самостоятельно определяют краулинговый бюджет ресурса и отталкиваются от него.

Однако плагин предоставляет возможность дополнительно настроить периодичность сканирования, но и это будет рекомендацией, а не командой.

Excluded Items позволяет удалить из sitemap.xml определенные документы либо категории.

Вкладка «Приоритеты» говорит сама за себя. Здесь указывается приоритетность страниц, значения для них выставляются от 0,1 до 1. Изначально у каждой страницы стоит значение 0,5. Выставьте наивысший приоритет самым важным для ранжирования страницам.

В конце обязательно сохраните изменения в настройках. Плагин продолжит функционировать в фоновом режиме и уже не будет необходимости в него заходить – карта сайта продолжит оставаться актуальной, так как все обновляется автоматически. Далее нужно лишь добавить файл в вебмастерские панели Яндекса и Google.

Для изображений

Поисковый гигант работает также с картами сайта, предназначенными для изображений. Благодаря ему роботы Google могут получать больше данных про изображения на сайте. Еще синтаксис помогает поисковику быстрее находить и индексировать картинки, которые ему не удалось отыскать в процессе сканирования ресурса.

Можно сделать синтаксис для картинок отдельно либо добавить его в уже созданный Sitemap. В сайтмапе для изображений, как и в стандартном, содержатся необязательные и обязательные теги XML.

К числу обязательных относятся:

  • – УРЛ-адрес картинки;
  • – тег, подобный , содержащий в себе адрес и другую информацию касательно изображения.

Необязательные теги следующие:

  • – подпись для картинки;
  • – название картинки;
  • – место, где делалось фото;
  • – УРЛ лицензии картинки.

Для видео

Google еще поддерживает карты сайта в формате XML, предназначенные специально для видео. Преимущества данного синтаксиса следующие:

  • позволяет показать поисковикам подробное описание видеофайла;
  • показывает ботам тип контента на ресурсе;
  • в результатах выдачи может отображать заставку для видеоролика, что в потенциале повышает клики и переходы на сайт;
  • контент можно будет найти в Google Видео .

XML карта для видео включает в себя обязательные теги:

  • – содержит все данные о видеофайле;
  • – в нем прописывается УРЛ страницы, где есть видео, а при наличии более одного видеофайла на странице в теге можно прописать несколько для каждой видеозаписи отдельно;
  • – описание к видео, которое необходимо прописывать на основе страницы, а количество символов не должно превышать 2048;
  • – адрес заставки (миниатюры) для видеофайла с допустимыми размерами от 160x90 до 1920x1080 пикселей и возможными форматами png, gif, jpg, or;
  • – заголовок для видео, который нужно указать аналогично названию документа, где размещена видеозапись.

Описание и заголовок видеофайла необходимо либо экранировать, либо поместить в блок CDATA. Сгенерировать видео для sitemap.xml можно используя плагин WP Video SEO .

TXT

Необходимо создать текстовый файл в кодировке UTF-8. В нем прописывать исключительно УРЛы страниц, которые следует проиндексировать.

Где разместить карту сайта?

Файл Sitemap лучше всего размещать в корневой папке веб-ресурса. А ссылка на карту сайта размещается в . Выглядеть она должна примерно так:


Наглядно посмотреть можно в нашем примере robots.txt по ссылке

Как добавить в Яндекс Вебмастер

Сайтмап предоставляет возможность сообщить поисковой системе про актуальную структуру ресурса, поэтому его можно добавить в панель вебмастера Яндекса .

Здесь можно:

  1. Загрузить карту сайта.
  2. Оповестить о ее обновлении.
  3. Исключить файл.
  1. Выберите веб-ресурс из списка.
  2. Укажите в соответствующем поле УРЛ-адрес расположения файла.
  3. Кликните «Добавить».

Так вы отправите карту сайта на обработку. Поисковый бот загрузит файл не позже чем через 14 дней. Все добавляемые файлы поисковая машина обрабатывает по-отдельности. Когда файлы загрузятся, напротив каждого из них отобразится статус:

  • ОК. Файл создан корректно и загружен в базу данных. Возле него будет показана дата последнего обновления. Документы, которые роботы уже проиндексировали, отобразятся в результатах выдачи не позже чем через 2 недели.
  • Редирект. Адрес файла перенаправляет на другой УРЛ. В данном случае требуется удалить редирект и оповестить систему про обновление .
  • Ошибка. Файл сделан некорректно. Перейдите по ссылке Ошибка , где будут описаны ее причины. Исправьте все, что требует поисковик и далее сообщите о внесении изменений.
  • Не проиндексирован. Сервер отправляет HTTP-код, который отличается от 200 ОК. Зайдите в инструмент Проверка ответа сервера и вставьте полный URL расположения карты сайта, чтобы убедиться, есть ли у поискового бота доступ к ней. Если файл недоступен, свяжитесь с администратором сервера или ресурса, где он размещен.

Также убедитесь, что в robots.txt вы не применили к файлу директиву Disallow, запрещающую его индексацию.

Обновление

При внесении каких-либо изменений в карту сайта нет необходимости удалять ее, а потом опять загружать, так как боты часто проверяют сайтмап на обновления и наличие ошибок. Рекомендуется лишь кликнуть по значку ручного обновления, что позволит ботам быстрее обойти файл.

На заметку. Количество попыток ручного обновления ограничено, поэтому используйте его с умом.

  1. Зайдите в панель вебмастера Google.
  2. Найдите раздел «Сканирование», в нем перейдите в «Файлы Sitemap».
  3. Кликните «Добавление/Проверка файла».
  4. Введите адрес, по которому доступна карта сайта.
  5. Кликните «Отправить».

Если вы хотите проверить Sitemap на ошибки, рядом с кнопкой «Отправить» находится «Тест» – нажмите для проверки. После проверки отобразится окно с сообщением о наличии или отсутствии ошибок.

В справке Google можно ознакомиться со списком всех возможных ошибок и вариантов их решения.

Удаление

Если у вас новый интерфейс Search Console, напишите в поддержку поисковой системы.

Но наиболее оптимальный вариант – переключиться на старую версию внизу страницы. А дальше все как и в Яндекс.Вебмастер: переходите к выбору сайта из списка и затем напротив Sitemap ставите галочку для удаления файла.

Заключение

Тщательно продумайте, какие страницы вашего веб-ресурса самые приоритетные по отношению к другим, и указывайте их в файле Sitemap. Это эффективный инструмент, грамотное применение которого поможет роботам поисковых систем быстрее обходить сайт и получать информацию о его структуре.

Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

https://сайт/!} 2018-06-14 daily 0.9

XML tags
urlset
url(required) - The parent tag for each URL.
loc(required) - Document URL, must be absolute.
lastmod- date of the last modification of the document in Datetime format.
changefreq- frequency of page changes (always, hourly, daily, weekly, monthly, yearly, never). The meaning of this tag is a recommendation to search engines, not a command.
priority- URL priority relative to other addresses (from 0 to 1) for scanning order. If not specified, the default is 0.5.

XML map for images

Some optimizers insert links to images into sitemap.xml in the same way as links to HTML documents. This can be done, but it is better for Google to use an extension of the standard protocol and send additional information about the images along with the URLs. Creating XML image maps is useful if images need to be scanned and indexed, and at the same time, they are not directly accessible to the bot (for example, JavaScript is used).

An example of a sitemap containing one page and its associated images

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML tags
image:image(required) - information about one image. A maximum of 1000 images can be used.
image:loc(required) - path to the image file. If a CDN is used, then it is acceptable to link to another domain if it is verified in the webmaster panel.
image:caption- caption for the image (may contain long text).
image:title- title image (usually short text).
image:geo_location- the shoot place.
image:license- Image license URL. Used for advanced image search.

XML map for video

Similar to the image map, Google also has a video sitemap protocol extension where you can specify detailed information about the video content that affects how it appears in video searches. A video sitemap is necessary when the site uses videos that are hosted locally, and when indexing these videos is difficult due to the technologies used. If you are embedding a video from YouTube on your website, then a video-sitemap is not needed here.

News Sitemap

If you have news content on your site and participate in Google News, it is useful to use a Sitemap for news, so Google will quickly find your latest materials and index all news articles. In this case, the Sitemap should contain only addresses of pages published in the last 2 days and contain no more than 1000 URLs.

Using multiple cards

If necessary, you can use several sitemaps, combining them into one index sitemap. Multiple sitemap.xml are used in cases where:

  • The site uses several engines (CMS).
  • The site has more than 50,000 pages.
  • It is necessary to set up convenient error tracking in sections.

In the latter case, each large section of the site has its own sitemap.xml and all of them are added to the panel for webmasters, where it is convenient to see which section has the most errors (see the section on finding errors in the sitemap).

If you have 2 or more sitemaps, they need to be combined into an index sitemap, which looks the same as a regular sitemap (except for the presence of sitemapindex and sitemap tags instead of urlset and url), has similar restrictions and can only link to regular XML maps (not index maps) .

Example Sitemap Index:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18:23:17+00:00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex(mandatory) - specifies the current protocol standard.
sitemap(mandatory) - contains information about a separate sitemap.
loc(required) - sitemap location (in xml, txt or rss format for Google).
lastmod- time of sitemap change. Allows search engines to quickly discover new URLs on large sites.

How to create sitemap.xml

Methods for creating XML Sitemap:

  • Internal CMS tools. Many CMSs already support sitemap creation. To find out, read the documentation for your CMS, look at the menu items in the admin panel, or contact engine technical support. Upload the file https://yoursite.com/sitemap.xml on your site; it may already exist and is being dynamically generated.
  • External plugins. If the CMS does not have functionality for generating a sitemap, and it supports plugins, Google which plugin covers the sitemap.xml question for your engine and install it. In some cases, you need to contact programmers to write a similar plugin for you.
  • Separate script on the site. Knowing the XML map protocol and technical limitations, you can create sitemap.xml yourself by adding a generation script to CRON. If you are not a programmer, use the other items in this list.
  • Sitemap generators. There are many sitemap.xml generators that scan your site and give you a ready-made map to download. The disadvantage here is that every time the site is updated, you need to manually generate a sitemap.
  • Parsers. Desktop programs designed for technical analysis of a website usually provide the opportunity to download sitemap.xml, generated based on crawled pages. It works similarly to sitemap generators, only it runs locally on your machine.

Popular online sitemap generators

XML-Sitemaps.com

Allows you to get sitemap.xml in a few clicks. Supports XML, HTML, TXT and GZ formats. Convenient to use for small sites (up to 500 pages).

A similar generator, but has a little more settings and allows you to create a map of up to 2000 pages for free.

Has many settings, allows you to import URLs from a CSV file. Scans up to 500 URLs for free.

There is no limit on the number of pages to scan. But for large sites, the generation process may freeze for several tens of minutes.

Local programs for generating XML Sitemap

G-Mapper Sitemap Generator

Free desktop version of the sitemap generator for Windows.

Screaming Frog SEO Spider

Flexible sitemap generation tool with many settings. Convenient if you already use screamin frog for other SEO tasks. After scanning the site, use the menu item Sitemaps -> Create XML Sitemap.

Netpeak Spider

A less flexible, but also convenient solution for quickly generating sitemap.xml. After scanning the site, you need to use the menu item Tools -> Generate Sitemap.

Use the Sitemap file to inform Yandex about the current structure of the site: specify a special directive in robots.txt or add it in Yandex.Webmaster.

With Yandex.Webmaster, you can:

Uploading Sitemap

    Choose the site from the list.

    Enter the file URL. For example, https://example.com/sitemap.xml.

    Click the Add button.

The file is put into the processing queue. The robot will download it within two weeks. Every added file, including the ones listed in the Sitemap index file, is handled by the robot separately.

Once the file is downloaded you will see one of the statuses:

Status Description Note
“OK”
"Redirect" Remove the redirect and
"Error" File is formed incorrectly inform the robot about the update
“Not indexed.”

Server response check

Disallow directive Allow access to Sitemap and inform the robot about the update
Status Description Note
“OK” The file is formed correctly and loaded into the robot's database.

The date of the last download is displayed next to the file.

Indexed pages appear in the search results within two weeks.

"Redirect" The URL redirects to another address. Remove the redirect and inform the robot about the update
"Error" File is formed incorrectly Click the Error link to view the details. Edit the file and inform the robot about the update
“Not indexed.” When the robot tries to download the Sitemap file, the server returns HTTP status other than 200

Check if the file is available to the robot. To do it, use the Server response check tool. Specify the full path to the file.

If the file is unavailable, contact the site or the hosting server administrator.

The access to the file is denied in robots.txt with the Disallow directive Allow access to Sitemap and inform the robot about the update

Updating Sitemap

If you changed Sitemap file added to Yandex.Webmaster, there is no need to delete it and upload it again. The robot regularly checks the file for updates and errors.

To speed up the file indexing, click the icon. If you use the Sitemap index file , you can launch the processing of each file listed in it. The robot will download the data within two weeks. You can use this function up to 10 times for each host.

When you run out of all attempts, you will be able to try again 30 days after the first try. The exact date is shown in Yandex.Webmaster.

Removing Sitemap

Files added on the Sitemap files page can be removed from Yandex.Webmaster.If the Sitemap directive was added in the robots.txt file , delete it. After making changes, information about Sitemap disappears from the robot database and Yandex.Webmaster within a few weeks.

FAQ

Sitemap is displayed in the service as an excluded page with the “Invalid document format” status.

The Sitemap file (and other XML files) is displayed as excluded pages. This is, however, only for information purposes and doesn't affect the site indexing or the Sitemap processing.

The Sitemap file can be displayed in a group of excluded pages if the robot tried to index it as a regular page, while the XML files aren't indexed in the Yandex search engine and aren't included in the search results.

The “Unknown tag” error occurred while processing Sitemap

The Sitemap file may contain only certain XML elements. If Yandex.Webmaster finds other elements in the file (for example, a reference to the mobile or multilingual version, image URLs), it displays the \"Unknown tag\" error. The robot ignores unsupported elements when processing Sitemap and takes into account the data from the supported elements. Therefore, you don"t need to change the Sitemap file.

If the file content is changed, the information in Yandex.Webmaster is updated within two weeks.

The Sitemap file has the “Not indexed” status.

The Sitemap file may not be indexed for several reasons:

    The roboted the Sitemap file recently and didn't process it yet. Wait for two weeks. If you crawl use the Sitemap index file with multiple files, they may take longer to process than a single Sitemap file.

XML Sitemap is a website"s URLs list in XML format. The Sitemap file is designed to inform search engines (such as Google, Bing, Yahoo, Yandex, MSN, and others) about the pages on the website, which should be indexed. Sitemap significantly speeds up site scans.In addition, the Sitemap allows you to transmit information about all pages of your site, including those that search engines can not get with the usual crawl.

Creating a Sitemap is especially useful when:

  • On your site new pages are generated automatically and frequently.
  • Your site is new, and it indicates a small number of links.
  • Your site has a large archive of content pages that are poor or not at all related to each other.

XML Sitemaps Protocol: What does a Sitemap contain?

In accordance with the XML Sitemaps Protocol and the requirements of search engines, the Sitemap file should contain no more than 50,000 pages and not exceed the size of 10 MB. This means that if your site contains more than 50,000 pages and file size Sitemap than 10 MB, you must create multiple Sitemap.

... https://hsectf.ru/en/URL ... ...

In addition to the required URL parameter, the XML Sitemaps protocol provides additional tags for each page:

Lastmod– indicates the date of last modification date.

Date (ISO 8601)

Changefreq– the probable frequency of the page content. Valid values ​​are:

  • always – every time the page loads
  • hourly – every hour
  • daily – every day
  • weekly – once a week
  • monthly – once a month
  • yearly – once a year
  • never – means that the page content remains unchanged.
Syntax:

Valid value

Priority– the priority of the page relative to other pages on your site. The valid range - from 0.0 to 1.0. This tag lets the search engines know which pages you think are most valuable.

Decimal from 0.0 to 1.0