Robots.txt забороняє SEO Більше, ніж допомога

Сканування та індексування - це дві різні речі
Що робити, якщо заблоковані URL-адреси індексуються
Інші дивовижні способи індексування URL-адреси
Не блокуйте файли Javascript та інші ресурси з забороною robots.txt
Коли використовувати robots.txt забороняє
Використовувати файл robots.txt заборонено

Чому мій рейтинг сайту !!!

- Ви повинні мені допомогти, мій новий сайт не займає жодного рейтингу. Чому Google ігнорує мене? "

Я подивився і достатньо, щоб файл robots.txt був налаштований, щоб заблокувати Google і інші пошукові системи від сканування всього сайту. На щастя, виправлення було легким. Я змінив цей файл:
User-agent: *
Заборонити: /
До цього:
User-agent: *
Заборонити:
Проблема вирішена.
(Ви також можете просто видалити файл.)

Я міг би виходити тут, але я бачив більше проблем, викликаних неправильним використанням файлу robots.txt, ніж вирішено.

Одне з великих помилок щодо заборонених директив robots.txt полягає в тому, що вони є надійним способом зберегти сторінки з індексу Google. Це не тільки не так, але коли проіндексовані сторінки - вони індексуються практично без інформації, додаючи в індекс багато низького якості майже дублікатів контенту, що може перетягнути SEO продуктивність вашого сайту.

Файл robots.txt існує протягом багатьох років. У перші дні пропускна здатність була більш дорогоцінною, і Googlebot часто оподатковував сервери, навіть обваливши їх, коли він сканував сайт. Таким чином, використання директиви disallow, щоб утримувати Google від сканування сторінок, часто допомагало зберегти сайт. Ці проблеми сьогодні є далекою пам'яттю.

Сканування та індексування - це дві різні речі

Коли ви додаєте директиву disallow до вашого файла robots.txt, ви повідомляєте Googlebot та інші пошукові роботи, щоб не сканувати цю сторінку або сторінки в цьому каталозі. Наприклад, коли я спочатку написав цю публікацію, мій файл robots.txt містить:
Disallow: / wp-admin
Заборонити: / *?

Перша директива забороняє будь-яку URL-адресу, яка починається з sitename.com / wp-admin, включаючи все в каталозі / wp-admin /. Друга забороняє будь-які URL-адреси, які містять у них знаки запитання (корисно, щоб уникнути сканування оригінальної структури p = permalink). Одне з кращих пояснень різних шаблонів, які можна використовувати в файлі robots.txt для дозволів і заборон, можна знайти в Відомості про розробника Google на файлі robots.txt .

Але повідомляючи Google і іншим ботам, що вони не можуть сканувати сторінку, це не заважає їм індексувати сторінку. Не сканування, а не індексація - це дві різні речі. Перший означає, що павук взагалі не відвідає сторінку, другий означає, що Google або Bing не зроблять сторінку доступною в результатах пошуку.

Це коли ми стикаємося з проблемами.

Тільки тому, що ваш файл robots.txt не дозволяє павуку відвідати сторінку, це не означає, що Google або Bing не знають про це. Пошукові системи можуть дізнатися про сторінку з зовнішніх сайтів, що посилаються на сторінку, і навіть з ваших внутрішніх посилань (особливо якщо посилання не має тега rel nofollow). Google, зокрема, є жадібним маленьким монстром і жадібно індексує будь-яке посилання на нього - навіть якщо він не може сканувати сторінку. Таким чином, ви отримаєте посилання в індексі Google, які мають URL-адресу (не назву сторінки, оскільки Google не бачить її!), А також фрагмент, який говорить це:

Опис цього результату недоступний, оскільки файл robots.txt цього сайту - докладніше.

Ви не хочете, щоб їх було багато в індексі Google.

Що робити, якщо заблоковані URL-адреси індексуються

Ви маєте три способи отримати URL-адреси з індексу Google.

Часто найкращим способом є додавання a мета роботів noindex тег на розділ HTML-сторінки вашої сторінки. Це наказує павукам не вводити URL-адресу у свій індекс. ВАЖЛИВО: Павук повинен бачити тег для обробки “noindex”. Таким чином, ви повинні видалити директиву disallow з файлу robots.txt, щоб дозволити павуку дістатися до сторінки, щоб він розумів, що він повинен видалити URL з індексу.
Якщо сторінку було видалено, видаліть заборону і дозвольте Googlebot і іншим пошуковим роботам сканувати і побачити 404 (ще краще використовувати 410). Це не шкідливо для того, щоб сторінки "Не знайдено" або "Вийшли" на вашому сайті, особливо якщо вони були сторінок низької якості. Зрештою, вони зникнуть з індексу.
Іншим методом є використання засобу видалення URL-адрес Google в обліковому записі Google Webmasters Tools (веб-майстри Bing також мають інструмент видалення). За допомогою такого підходу ви хочете зберегти неприйняття на місці, оскільки це є вимогою для видалення. Зауважте, що деякі звіти про повторне відображення URL-адрес у індексі після 90-денного періоду, таким чином, можуть змінюватися.

Інші дивовижні способи індексування URL-адреси

Вхідні посилання на сторінку можуть бути не єдиним способом індексування URL-адреси, заблокованої robots.txt. Ось кілька дивовижних:

Я б також видалив будь-який Adsense на сторінці, яку ви збираєтеся не використовувати в індексі Google. У мене немає жодних доказів того, що Google Adsense призводить до індексування сторінки, але я все одно зроблю її.

Не блокуйте файли Javascript та інші ресурси з забороною robots.txt

Раніше була звичайною практикою використання robots.txt забороняє тримати веб-сканери від файлів, що не є HTML, наприклад CSS, Javascript та файли зображень. Проте 27 жовтня 2014 року Google оновив свої технічні рекомендації для веб-майстрів, щоб рекомендувати проти цієї практики, оскільки система індексування тепер веде себе як сучасний веб-переглядач. В Жовтневе оголошення У станах Google: заборона сканування файлів Javascript або CSS у файлі robots.txt вашого сайту безпосередньо завдає шкоди тому, як наші алгоритми відтворюють та індексують ваш вміст, і можуть призвести до субоптимального рейтингу.

У Пошуковій консолі Google (раніше відома як Інструменти Google для веб-майстрів) можна перевірити "Блокувати ресурси" в розділі "Сканування Google", щоб перевірити, чи не блокує нічого, що Google вважає важливим.

Коли використовувати robots.txt забороняє

Є два сценарії, які я можу думати про те, де забороняє robots.txt, як і раніше корисно:

Ви хочете швидко видалити сайт або розділ сайту. Набагато швидше використовувати функцію robots.txt та Google Search Console, щоб видалити сайт або розділ сайту з Індексу Google; ніж додати тег мета-роботів noindex і чекає, поки Googlebot буде перемальовувати сторінки і звернути увагу на noindex. У мене був клієнт, якого постраждав Панда. Ми виявили, що у них є розділ свого сайту, який в основному дублювався в їхньому портфелі сайтів, коли ми видалили цей розділ з індексу Google за допомогою заборони robot.txt і URL-адреси видалення GSC, їх трафік на сайті відновився протягом місяця. Іншим поширеним сценарієм є встановлення індексу (або піддомена) інсталяції або розробки сайту, що потребує видалення з результатів пошуку Google.
Ви хочете зберегти вашу пропускну здатність: Загальний сценарій, який я бачу, це сайти, які створюють окрему URL-адресу зворотного шляху кожного разу, коли користувач натискає на посилання Login для вихідної сторінки, яка має посилання. Як правило, я б радив просто додати тег мета-роботів noindex на цю сторінку входу (і всі варіанти), однак можливе занепокоєння полягає в тому, що сканування цих сторінок марнує пропускну здатність сканування Googlebot, яка була виділена на ваш сайт. Я все ще вважаю, що мета-робот noindex тег є шлях, але з великими складними сайтами можна мати фільтри і параметри, які створюють нескінченну кількість сторінок, які Googlebot не повинен сканувати. У деяких з цих випадків може бути доцільним заборона robots.txt.

Також оновлення файлу robots.txt не обробляються миттєво. Я бачив випадки, коли Google обробив ряд URL-адрес, перш ніж обробляти заборону. Отже, додавайте неприпустимість не менше 24 годин.

За допомогою функції видалення URL-адрес для видалення консолі Google можна видалити сторінку, підтеку або весь сайт з Індексу Google; якщо сайт заблоковано файлом robots.txt або сторінка повертає код стану 404 Not Found HTTP. Для подання запитів на видалення потрібно мати права адміністратора. І майте на увазі, що видалення може бути тимчасовим. Більш детальну інформацію про функцію Видалити URL можна знайти тут .

Використовувати файл robots.txt заборонено

Файл robots.txt старий, і його корисність зменшилася. Так, ще є сценарії, коли заборона корисна, але вони часто використовуються неправильно.

Ця публікація була опублікована 10 вересня 2012 року та була оновлена 26 травня 2016 року.

Документація Robots.tx

Павук люб'язно надано openclipart.org

Чому Google ігнорує мене?