Sitemap.xml для SEO - повне керівництво по налаштуванню

  1. Індексація
  2. послідовність
  3. Загальна якість сайту
  4. прихований контент
  5. Noindex vs. robots.txt
  6. управління скануванням
  7. Налагодження проблем індексації
  8. Динамічні XML sitemap
  9. Video sitemap
  10. підсумок

Існує безліч помилок щодо роботи XML-файла sitemap. Це ефективний інструмент, але як і у випадку з будь-яким ефективним інструментом, ніколи не завадить дізнатися передісторію і довідкову інформацію.

Індексація

Мабуть, головна помилка полягає в тому, що XML sitemap допомагає індексувати сторінки. Але Google не індексує сторінки, якщо його ввічливо про це попросити. Google індексує сторінки:

а) тому що їх знаходить і сканує;

б) вважає їх якість досить високим.

Якщо вказати Google на сторінку і попросити її проіндексувати, це ні до чого не приведе.

Розміщуючи XML-файл sitemap в Search Console , Ви тим самим підказуєте Google, що сторінки в XML sitemap, на вашу думку, досить високої якості, щоб їх індексувати. Але це всього лише підказка, що сторінка важлива ...

послідовність

Одна з найпоширеніших помилок - недолік послідовності щодо конкретної сторінки. Наприклад, якщо ви блокуєте певну сторінку в robots.txt, а потім додаєте її в XML sitemap, - це помилка. «Дивись, Google ... - каже sitemap, - є хороша сторінка для індексації». А потім robots.txt її блокує ....

Загалом, не включайте сторінку в XML sitemap, щоб потім встановити значення метатега robots як «noindex, follow.»

«Noindex» означає: «Не індексувати сторінку»; "Nofollow" - "гіперпосилання не простежуються з даної сторінки». Якщо хочете, щоб Google не індексував сторінку, встановіть значення «noindex, follow.»

В цілому, всі сторінки сайту діляться на дві категорії, їх можна помістити в два кошики:

  1. Довідкові сторінки (Utility) (потрібні користувачам, але не всі з них доречні в якості посадкових сторінок).
  2. «Смачні», високоякісні посадочні сторінки.

Все, що знаходиться в кошику # 1, краще блокувати в robots.txt або за допомогою значень метатега «noindex, follow», і не додавати в XML sitemap.

Все, що в кошику # 2, не потрібно блокувати в robots.txt, має бути в XML sitemap і без «noindex,».

Загальна якість сайту

Очевидно, що Google намагається покращувати загальну якість сайтів. Розглянемо це з точки зору пошукової системи. Припустимо, є хороша сторінка з прекрасним контентом, який відповідає всім вимогам - від алгоритму Panda до соцмереж.

Google «розуміє», що на кожному сайті є певна кількість «довідкових» сторінок, але ці сторінки не завжди використовуються як посадочні в пошуку: сторінки для обміну контентом з іншими, відповідь на коментарі, вхід в аккаунт, відновлення пароля ...

Ось приблизна картина того, що ви хотіли б представити Google. Сайт на 1000 сторінок .... З них 475 сторінок з прекрасним контентом. Інші можна ігнорувати - це довідкові сторінки. Тепер Google сканує ці 475 сторінок і за допомогою своїх метрик визначає, що 175 з них рівня «A», 200 - «B +," і 100 - «B» або «B-.» Це досить непогані середні показники, які свідчать про те , що користувача можна відправляти на сайт.

Порівняємо це з сайтом, у якого 1 000 сторінок в XML sitemap. Google розглядає ці 1 000 сторінок, які ви позначили як сторінки з хорошим контентом, в результаті виявляється, що більше половини з них - сторінки рівня «D» або «F». І, в цілому, сайт нікудишній; Google, ймовірно, не відправить на нього користувачів.

прихований контент

Google використовує те, що ви ставите в XML sitemap як підказку щодо важливого на сайті. Але якщо сторінка не присутній в XML sitemap, це ще не означає, що Google її проігнорує.

Важливо знайти сторінки, про які ви могли забути і які пошукова система все ж проиндексирует, - щоб уникнути «середніх оцінок» від Google. Для цього потрібно встановити значення метатега «noindex, follow» (або заблокувати сторінку в robots.txt). Загалом, найслабші сторінки, які Google індексує, слід розміщувати останніми.

Noindex vs. robots.txt

Є різниця між використанням метатегов і robots.txt, щоб не допустити індексацію сторінки.

На цьому прикладі блокуються несправжні сторінки - а скрипти відстеження, таким чином посилальна маса не втрачається, у цих сторінок немає тега header з посиланнями на головне меню та ін.

На сторінки типу Contact Us або Privacy Policy, ймовірно, ведуть кілька сторінок сайту - за допомогою або головного меню, або меню футера.

управління скануванням

robots.txt зазвичай використовують, коли у Googlebot виникають складнощі зі скануванням, коли на сканування довідкових сторінок йде багато часу, - і лише потім, щоб виявити значення метатега «noindex, follow». Якщо подібного так багато, що Googlebot не може пробратися до важливих сторінок, тоді варто заблокувати сторінки в robots.txt.

У ряді випадків очищення XML sitemap і блокування довідкових сторінок приносить результат:

У ряді випадків очищення XML sitemap і блокування довідкових сторінок приносить результат:

Якщо у вас є ядро ​​сторінок, які регулярно оновлюються (блог, нова продукція, сторінки категорій продукції) і безліч сторінок для індексації (окремі сторінки з товаром), але не за рахунок повторного сканування та індексації ключових сторінок, тоді ви можете помістити ключові сторінки в XML sitemap. Так ви вкажете Google на сторінки, які вважаєте більш важливими в порівнянні з тими, що заблоковані і яких немає в файлі sitemap.

Налагодження проблем індексації

Налагодження проблем індексації

Ось де XML sitemap по-справжньому корисний в плані SEO : Коли ви надаєте безліч сторінок для індексації в Google, і лише кілька з них фактично індексуються. Search Console не повідомив, які сторінки індексуються, а тільки загальне число індексованих в кожному XML-файлі sitemap.

Припустимо, у вас є e-commerce-майданчик і 100,000 сторінок з товаром, 5,000 сторінок категорій та підкатегорій. XML sitemap містить 125,000 сторінок, і виявляється, що Google індексує 87,000 з них. Але які саме 87,000?

По-перше, сторінки категорій і підкатегорій, швидше за все, важливі цільові сторінки. Створюється окремо category-sitemap.xml і subcategory-sitemap.xml. Ви очікуєте побачити 100% індексації - якщо цього немає, додаєте більше контенту, нарощуєте кількість посилань на сторінки, або і те й інше. Може виявитися, що сторінки категорій товарів або підкатегорій не індексуються, тому що в них тільки один товар (або немає взагалі) - в такому випадку знадобиться налаштувати значення метатега «noindex, follow» і перетягнути їх з XML sitemap.

Є ймовірність, що проблема криється в декількох з 100,000 сторінок з продукцією, але в яких саме?

Складіть гіпотезу і розділіть сторінки з продукцією за кількома різними XML sitemap, щоб перевірити гіпотезу. Їх може бути кілька - нічого, якщо якесь посилання дублюється в декількох файлах sitemap.

Можна почати з трьох гіпотез:

  1. Чи не індексуються сторінки без зображень / фотографій.
  2. Чи не індексуються сторінки, в унікальних описах яких менше 200 слів.
  3. Чи не індексуються сторінки, на яких немає коментарів / відгуків.

Створіть XML-файл sitemap з істотним кількістю сторінок, які б ставилися до кожної з трьох перерахованих гіпотез. Не обов'язково поміщати всі сторінки в ці три групи - досить зразкового обсягу сторінок, щоб зробити висновок щодо індексації. Можна по 100 сторінок в кожну групу.

Мета - за допомогою загального відсотка індексації будь-якого sitemap визначити, що саме на сторінках перешкоджає індексації, а що їй сприяє.

Як тільки ви виявите проблему, зможете змінити контент на сторінці (посилання на сторінки), або припинити індексацію сторінок. Наприклад, у 20,000 з ваших 100,000 сторінок в описі продукції менше 50 слів. Якщо це не високочастотні ключові слова, і якщо це опис виробника, тоді, швидше за все, немає сенсу намагатися вручну додавати додаткові 200 слів до кожної з 20 тисяч сторінок. Також, можливо, варто встановити значення «noindex, follow» для всіх сторінок, у яких в описі продукції менше 50 слів. Оскільки Google і так не буде їх індексувати, до того ж вони знижують рейтинг сайту. Не забудьте видалити їх з XML-файла sitemap.

Динамічні XML sitemap

Не потрібно вручну синхронізувати XML sitemap з метатегами robots на 100,000 сторінок. XML-файли sitemap не обов'язково повинні бути статичними, більш того, не потрібно навіть розширення .XML, щоб помістити їх в Search Console.

Замість цього створіть логіку обробки правил, яка б визначала, додається чи сторінка в XML sitemap чи ні, використовуйте ту ж логіку на сторінці, щоб встановити метатег robots як індексований або Неіндексований.

Коли опис продукції з каналу виробника оновлюється і опис збільшується з 42 слів до 215, сторінка на вашому сайті чудесним чином з'являється в XML-файлі sitemap і до метатегах robots додається «index, follow.»

Video sitemap

як щодо video XML sitemap? Ці файли залишилися в далекому 2015; Wistia їх уже навіть не генерує. Краще використовувати на веб-сторінці JSON-LD і макет schema.org/VideoObject .

підсумок

  1. Важлива послідовність - якщо сторінка блокується в файлі robots.txt або метатегів robots «noindex," краще виключити її з XML sitemap.
  2. Використовуйте XML-файли sitemap як пошукові інструменти, щоб знайти і усунути проблеми, пов'язані з індексацією; дозволяйте Google індексувати ті сторінки, які потрібно.
  3. Якщо у вас великий сайт, використовуйте динамічні XML sitemap - не намагайтеся вручну синхронізувати все це між robots.txt, meta robots і XML sitemap.

Але які саме 87,000?
Є ймовірність, що проблема криється в декількох з 100,000 сторінок з продукцією, але в яких саме?