Robots.txt забороняє SEO Більше, ніж допомога

  1. Сканування та індексування - це дві різні речі
  2. Що робити, якщо заблоковані URL-адреси індексуються
  3. Інші дивовижні способи індексування URL-адреси
  4. Не блокуйте файли Javascript та інші ресурси з забороною robots.txt
  5. Коли використовувати robots.txt забороняє
  6. Використовувати файл robots.txt заборонено

Чому мій рейтинг сайту !!!

- Ви повинні мені допомогти, мій новий сайт не займає жодного рейтингу. Чому Google ігнорує мене? "

Я подивився і достатньо, щоб файл robots.txt був налаштований, щоб заблокувати Google і інші пошукові системи від сканування всього сайту. На щастя, виправлення було легким. Я змінив цей файл:
User-agent: *
Заборонити: /
До цього:
User-agent: *
Заборонити:
Проблема вирішена.
(Ви також можете просто видалити файл.)

Я міг би виходити тут, але я бачив більше проблем, викликаних неправильним використанням файлу robots.txt, ніж вирішено.

Одне з великих помилок щодо заборонених директив robots.txt полягає в тому, що вони є надійним способом зберегти сторінки з індексу Google. Це не тільки не так, але коли проіндексовані сторінки - вони індексуються практично без інформації, додаючи в індекс багато низького якості майже дублікатів контенту, що може перетягнути SEO продуктивність вашого сайту.

Файл robots.txt існує протягом багатьох років. У перші дні пропускна здатність була більш дорогоцінною, і Googlebot часто оподатковував сервери, навіть обваливши їх, коли він сканував сайт. Таким чином, використання директиви disallow, щоб утримувати Google від сканування сторінок, часто допомагало зберегти сайт. Ці проблеми сьогодні є далекою пам'яттю.

Сканування та індексування - це дві різні речі

Коли ви додаєте директиву disallow до вашого файла robots.txt, ви повідомляєте Googlebot та інші пошукові роботи, щоб не сканувати цю сторінку або сторінки в цьому каталозі. Наприклад, коли я спочатку написав цю публікацію, мій файл robots.txt містить:
Disallow: / wp-admin
Заборонити: / *?

Перша директива забороняє будь-яку URL-адресу, яка починається з sitename.com / wp-admin, включаючи все в каталозі / wp-admin /. Друга забороняє будь-які URL-адреси, які містять у них знаки запитання (корисно, щоб уникнути сканування оригінальної структури p = permalink). Одне з кращих пояснень різних шаблонів, які можна використовувати в файлі robots.txt для дозволів і заборон, можна знайти в Відомості про розробника Google на файлі robots.txt .

Але повідомляючи Google і іншим ботам, що вони не можуть сканувати сторінку, це не заважає їм індексувати сторінку. Не сканування, а не індексація - це дві різні речі. Перший означає, що павук взагалі не відвідає сторінку, другий означає, що Google або Bing не зроблять сторінку доступною в результатах пошуку.

Це коли ми стикаємося з проблемами.

Тільки тому, що ваш файл robots.txt не дозволяє павуку відвідати сторінку, це не означає, що Google або Bing не знають про це. Пошукові системи можуть дізнатися про сторінку з зовнішніх сайтів, що посилаються на сторінку, і навіть з ваших внутрішніх посилань (особливо якщо посилання не має тега rel nofollow). Google, зокрема, є жадібним маленьким монстром і жадібно індексує будь-яке посилання на нього - навіть якщо він не може сканувати сторінку. Таким чином, ви отримаєте посилання в індексі Google, які мають URL-адресу (не назву сторінки, оскільки Google не бачить її!), А також фрагмент, який говорить це:

Опис цього результату недоступний, оскільки файл robots.txt цього сайту - докладніше.

Ви не хочете, щоб їх було багато в індексі Google.

Що робити, якщо заблоковані URL-адреси індексуються

Ви маєте три способи отримати URL-адреси з індексу Google.

  1. Часто найкращим способом є додавання a мета роботів noindex тег на розділ HTML-сторінки вашої сторінки. Це наказує павукам не вводити URL-адресу у свій індекс. ВАЖЛИВО: Павук повинен бачити тег для обробки “noindex”. Таким чином, ви повинні видалити директиву disallow з файлу robots.txt, щоб дозволити павуку дістатися до сторінки, щоб він розумів, що він повинен видалити URL з індексу.
  2. Якщо сторінку було видалено, видаліть заборону і дозвольте Googlebot і іншим пошуковим роботам сканувати і побачити 404 (ще краще використовувати 410). Це не шкідливо для того, щоб сторінки "Не знайдено" або "Вийшли" на вашому сайті, особливо якщо вони були сторінок низької якості. Зрештою, вони зникнуть з індексу.
  3. Іншим методом є використання засобу видалення URL-адрес Google в обліковому записі Google Webmasters Tools (веб-майстри Bing також мають інструмент видалення). За допомогою такого підходу ви хочете зберегти неприйняття на місці, оскільки це є вимогою для видалення. Зауважте, що деякі звіти про повторне відображення URL-адрес у індексі після 90-денного періоду, таким чином, можуть змінюватися.

Інші дивовижні способи індексування URL-адреси

Вхідні посилання на сторінку можуть бути не єдиним способом індексування URL-адреси, заблокованої robots.txt. Ось кілька дивовижних:

Я б також видалив будь-який Adsense на сторінці, яку ви збираєтеся не використовувати в індексі Google. У мене немає жодних доказів того, що Google Adsense призводить до індексування сторінки, але я все одно зроблю її.

Не блокуйте файли Javascript та інші ресурси з забороною robots.txt

Раніше була звичайною практикою використання robots.txt забороняє тримати веб-сканери від файлів, що не є HTML, наприклад CSS, Javascript та файли зображень. Проте 27 жовтня 2014 року Google оновив свої технічні рекомендації для веб-майстрів, щоб рекомендувати проти цієї практики, оскільки система індексування тепер веде себе як сучасний веб-переглядач. В Жовтневе оголошення У станах Google: заборона сканування файлів Javascript або CSS у файлі robots.txt вашого сайту безпосередньо завдає шкоди тому, як наші алгоритми відтворюють та індексують ваш вміст, і можуть призвести до субоптимального рейтингу.

У Пошуковій консолі Google (раніше відома як Інструменти Google для веб-майстрів) можна перевірити "Блокувати ресурси" в розділі "Сканування Google", щоб перевірити, чи не блокує нічого, що Google вважає важливим.

Коли використовувати robots.txt забороняє

Є два сценарії, які я можу думати про те, де забороняє robots.txt, як і раніше корисно:

  1. Ви хочете швидко видалити сайт або розділ сайту. Набагато швидше використовувати функцію robots.txt та Google Search Console, щоб видалити сайт або розділ сайту з Індексу Google; ніж додати тег мета-роботів noindex і чекає, поки Googlebot буде перемальовувати сторінки і звернути увагу на noindex. У мене був клієнт, якого постраждав Панда. Ми виявили, що у них є розділ свого сайту, який в основному дублювався в їхньому портфелі сайтів, коли ми видалили цей розділ з індексу Google за допомогою заборони robot.txt і URL-адреси видалення GSC, їх трафік на сайті відновився протягом місяця. Іншим поширеним сценарієм є встановлення індексу (або піддомена) інсталяції або розробки сайту, що потребує видалення з результатів пошуку Google.
  2. Ви хочете зберегти вашу пропускну здатність: Загальний сценарій, який я бачу, це сайти, які створюють окрему URL-адресу зворотного шляху кожного разу, коли користувач натискає на посилання Login для вихідної сторінки, яка має посилання. Як правило, я б радив просто додати тег мета-роботів noindex на цю сторінку входу (і всі варіанти), однак можливе занепокоєння полягає в тому, що сканування цих сторінок марнує пропускну здатність сканування Googlebot, яка була виділена на ваш сайт. Я все ще вважаю, що мета-робот noindex тег є шлях, але з великими складними сайтами можна мати фільтри і параметри, які створюють нескінченну кількість сторінок, які Googlebot не повинен сканувати. У деяких з цих випадків може бути доцільним заборона robots.txt.

Також оновлення файлу robots.txt не обробляються миттєво. Я бачив випадки, коли Google обробив ряд URL-адрес, перш ніж обробляти заборону. Отже, додавайте неприпустимість не менше 24 годин.

За допомогою функції видалення URL-адрес для видалення консолі Google можна видалити сторінку, підтеку або весь сайт з Індексу Google; якщо сайт заблоковано файлом robots.txt або сторінка повертає код стану 404 Not Found HTTP. Для подання запитів на видалення потрібно мати права адміністратора. І майте на увазі, що видалення може бути тимчасовим. Більш детальну інформацію про функцію Видалити URL можна знайти тут .

Використовувати файл robots.txt заборонено

Файл robots.txt старий, і його корисність зменшилася. Так, ще є сценарії, коли заборона корисна, але вони часто використовуються неправильно.

Ця публікація була опублікована 10 вересня 2012 року та була оновлена ​​26 травня 2016 року.

Документація Robots.tx

Павук люб'язно надано openclipart.org

Чому Google ігнорує мене?