Sitemap.xml для SEO - повне керівництво по налаштуванню
- Індексація
- послідовність
- Загальна якість сайту
- прихований контент
- Noindex vs. robots.txt
- управління скануванням
- Налагодження проблем індексації
- Динамічні XML sitemap
- Video sitemap
- підсумок
Існує безліч помилок щодо роботи XML-файла sitemap. Це ефективний інструмент, але як і у випадку з будь-яким ефективним інструментом, ніколи не завадить дізнатися передісторію і довідкову інформацію.
Індексація
Мабуть, головна помилка полягає в тому, що XML sitemap допомагає індексувати сторінки. Але Google не індексує сторінки, якщо його ввічливо про це попросити. Google індексує сторінки:
а) тому що їх знаходить і сканує;
б) вважає їх якість досить високим.
Якщо вказати Google на сторінку і попросити її проіндексувати, це ні до чого не приведе.
Розміщуючи XML-файл sitemap в Search Console , Ви тим самим підказуєте Google, що сторінки в XML sitemap, на вашу думку, досить високої якості, щоб їх індексувати. Але це всього лише підказка, що сторінка важлива ...
послідовність
Одна з найпоширеніших помилок - недолік послідовності щодо конкретної сторінки. Наприклад, якщо ви блокуєте певну сторінку в robots.txt, а потім додаєте її в XML sitemap, - це помилка. «Дивись, Google ... - каже sitemap, - є хороша сторінка для індексації». А потім robots.txt її блокує ....
Загалом, не включайте сторінку в XML sitemap, щоб потім встановити значення метатега robots як «noindex, follow.»
«Noindex» означає: «Не індексувати сторінку»; "Nofollow" - "гіперпосилання не простежуються з даної сторінки». Якщо хочете, щоб Google не індексував сторінку, встановіть значення «noindex, follow.»
В цілому, всі сторінки сайту діляться на дві категорії, їх можна помістити в два кошики:
- Довідкові сторінки (Utility) (потрібні користувачам, але не всі з них доречні в якості посадкових сторінок).
- «Смачні», високоякісні посадочні сторінки.
Все, що знаходиться в кошику # 1, краще блокувати в robots.txt або за допомогою значень метатега «noindex, follow», і не додавати в XML sitemap.
Все, що в кошику # 2, не потрібно блокувати в robots.txt, має бути в XML sitemap і без «noindex,».
Загальна якість сайту
Очевидно, що Google намагається покращувати загальну якість сайтів. Розглянемо це з точки зору пошукової системи. Припустимо, є хороша сторінка з прекрасним контентом, який відповідає всім вимогам - від алгоритму Panda до соцмереж.
Google «розуміє», що на кожному сайті є певна кількість «довідкових» сторінок, але ці сторінки не завжди використовуються як посадочні в пошуку: сторінки для обміну контентом з іншими, відповідь на коментарі, вхід в аккаунт, відновлення пароля ...
Ось приблизна картина того, що ви хотіли б представити Google. Сайт на 1000 сторінок .... З них 475 сторінок з прекрасним контентом. Інші можна ігнорувати - це довідкові сторінки. Тепер Google сканує ці 475 сторінок і за допомогою своїх метрик визначає, що 175 з них рівня «A», 200 - «B +," і 100 - «B» або «B-.» Це досить непогані середні показники, які свідчать про те , що користувача можна відправляти на сайт.
Порівняємо це з сайтом, у якого 1 000 сторінок в XML sitemap. Google розглядає ці 1 000 сторінок, які ви позначили як сторінки з хорошим контентом, в результаті виявляється, що більше половини з них - сторінки рівня «D» або «F». І, в цілому, сайт нікудишній; Google, ймовірно, не відправить на нього користувачів.
прихований контент
Google використовує те, що ви ставите в XML sitemap як підказку щодо важливого на сайті. Але якщо сторінка не присутній в XML sitemap, це ще не означає, що Google її проігнорує.
Важливо знайти сторінки, про які ви могли забути і які пошукова система все ж проиндексирует, - щоб уникнути «середніх оцінок» від Google. Для цього потрібно встановити значення метатега «noindex, follow» (або заблокувати сторінку в robots.txt). Загалом, найслабші сторінки, які Google індексує, слід розміщувати останніми.
Noindex vs. robots.txt
Є різниця між використанням метатегов і robots.txt, щоб не допустити індексацію сторінки.
На цьому прикладі блокуються несправжні сторінки - а скрипти відстеження, таким чином посилальна маса не втрачається, у цих сторінок немає тега header з посиланнями на головне меню та ін.
На сторінки типу Contact Us або Privacy Policy, ймовірно, ведуть кілька сторінок сайту - за допомогою або головного меню, або меню футера.
управління скануванням
robots.txt зазвичай використовують, коли у Googlebot виникають складнощі зі скануванням, коли на сканування довідкових сторінок йде багато часу, - і лише потім, щоб виявити значення метатега «noindex, follow». Якщо подібного так багато, що Googlebot не може пробратися до важливих сторінок, тоді варто заблокувати сторінки в robots.txt.
У ряді випадків очищення XML sitemap і блокування довідкових сторінок приносить результат:
Якщо у вас є ядро сторінок, які регулярно оновлюються (блог, нова продукція, сторінки категорій продукції) і безліч сторінок для індексації (окремі сторінки з товаром), але не за рахунок повторного сканування та індексації ключових сторінок, тоді ви можете помістити ключові сторінки в XML sitemap. Так ви вкажете Google на сторінки, які вважаєте більш важливими в порівнянні з тими, що заблоковані і яких немає в файлі sitemap.
Налагодження проблем індексації
Ось де XML sitemap по-справжньому корисний в плані SEO : Коли ви надаєте безліч сторінок для індексації в Google, і лише кілька з них фактично індексуються. Search Console не повідомив, які сторінки індексуються, а тільки загальне число індексованих в кожному XML-файлі sitemap.
Припустимо, у вас є e-commerce-майданчик і 100,000 сторінок з товаром, 5,000 сторінок категорій та підкатегорій. XML sitemap містить 125,000 сторінок, і виявляється, що Google індексує 87,000 з них. Але які саме 87,000?
По-перше, сторінки категорій і підкатегорій, швидше за все, важливі цільові сторінки. Створюється окремо category-sitemap.xml і subcategory-sitemap.xml. Ви очікуєте побачити 100% індексації - якщо цього немає, додаєте більше контенту, нарощуєте кількість посилань на сторінки, або і те й інше. Може виявитися, що сторінки категорій товарів або підкатегорій не індексуються, тому що в них тільки один товар (або немає взагалі) - в такому випадку знадобиться налаштувати значення метатега «noindex, follow» і перетягнути їх з XML sitemap.
Є ймовірність, що проблема криється в декількох з 100,000 сторінок з продукцією, але в яких саме?
Складіть гіпотезу і розділіть сторінки з продукцією за кількома різними XML sitemap, щоб перевірити гіпотезу. Їх може бути кілька - нічого, якщо якесь посилання дублюється в декількох файлах sitemap.
Можна почати з трьох гіпотез:
- Чи не індексуються сторінки без зображень / фотографій.
- Чи не індексуються сторінки, в унікальних описах яких менше 200 слів.
- Чи не індексуються сторінки, на яких немає коментарів / відгуків.
Створіть XML-файл sitemap з істотним кількістю сторінок, які б ставилися до кожної з трьох перерахованих гіпотез. Не обов'язково поміщати всі сторінки в ці три групи - досить зразкового обсягу сторінок, щоб зробити висновок щодо індексації. Можна по 100 сторінок в кожну групу.
Мета - за допомогою загального відсотка індексації будь-якого sitemap визначити, що саме на сторінках перешкоджає індексації, а що їй сприяє.
Як тільки ви виявите проблему, зможете змінити контент на сторінці (посилання на сторінки), або припинити індексацію сторінок. Наприклад, у 20,000 з ваших 100,000 сторінок в описі продукції менше 50 слів. Якщо це не високочастотні ключові слова, і якщо це опис виробника, тоді, швидше за все, немає сенсу намагатися вручну додавати додаткові 200 слів до кожної з 20 тисяч сторінок. Також, можливо, варто встановити значення «noindex, follow» для всіх сторінок, у яких в описі продукції менше 50 слів. Оскільки Google і так не буде їх індексувати, до того ж вони знижують рейтинг сайту. Не забудьте видалити їх з XML-файла sitemap.
Динамічні XML sitemap
Не потрібно вручну синхронізувати XML sitemap з метатегами robots на 100,000 сторінок. XML-файли sitemap не обов'язково повинні бути статичними, більш того, не потрібно навіть розширення .XML, щоб помістити їх в Search Console.
Замість цього створіть логіку обробки правил, яка б визначала, додається чи сторінка в XML sitemap чи ні, використовуйте ту ж логіку на сторінці, щоб встановити метатег robots як індексований або Неіндексований.
Коли опис продукції з каналу виробника оновлюється і опис збільшується з 42 слів до 215, сторінка на вашому сайті чудесним чином з'являється в XML-файлі sitemap і до метатегах robots додається «index, follow.»
Video sitemap
як щодо video XML sitemap? Ці файли залишилися в далекому 2015; Wistia їх уже навіть не генерує. Краще використовувати на веб-сторінці JSON-LD і макет schema.org/VideoObject .
підсумок
- Важлива послідовність - якщо сторінка блокується в файлі robots.txt або метатегів robots «noindex," краще виключити її з XML sitemap.
- Використовуйте XML-файли sitemap як пошукові інструменти, щоб знайти і усунути проблеми, пов'язані з індексацією; дозволяйте Google індексувати ті сторінки, які потрібно.
- Якщо у вас великий сайт, використовуйте динамічні XML sitemap - не намагайтеся вручну синхронізувати все це між robots.txt, meta robots і XML sitemap.
Є ймовірність, що проблема криється в декількох з 100,000 сторінок з продукцією, але в яких саме?