Robots.txt Disallows może szkodzić SEO więcej niż pomoc

Przeszukiwane i indeksowane to dwie różne rzeczy
Co zrobić, jeśli zablokowane adresy URL są indeksowane
Inne zaskakujące sposoby indeksowania adresu URL
Nie blokuj plików Javascript i innych zasobów za pomocą robots.txt
Kiedy nie używać robots.txt
Użyj pliku robots.txt, aby zabezpieczyć się oszczędnie

Dlaczego mój ranking witryny nie jest !!!

„Musisz mi pomóc, moja nowa witryna nie jest nigdzie klasyfikowana. Dlaczego Google mnie ignoruje? ”

Sprawdziłem i na pewno plik robots.txt witryny został skonfigurowany tak, aby blokować Google i inne wyszukiwarki przed przeszukiwaniem całej witryny. Na szczęście poprawka była łatwa. Zmieniłem plik z tego:
Agent użytkownika: *
Disallow: /
Do tego:
Agent użytkownika: *
Zakazać:
Problem rozwiązany.
(Możesz także po prostu usunąć plik.)

Być może wychodzę tutaj, ale widziałem więcej problemów spowodowanych niewłaściwym użyciem pliku robots.txt niż rozwiązałem.

Jednym z największych błędnych przekonań na temat dyrektyw o robotach.txt jest to, że są one niezawodnym sposobem na uniknięcie stron z indeksu Google. Nie tylko nie jest to prawdą, ale gdy strony są indeksowane - są indeksowane prawie bez żadnych informacji, dodając do indeksu dużo niskiej jakości prawie zduplikowanych treści, co może obniżyć wydajność SEO witryny.

Plik robots.txt istnieje od lat. W tamtych czasach przepustowość była cenniejsza, a Googlebot często opodatkowywał serwery, nawet je niszcząc, gdy indeksował witrynę. Tak więc użycie dyrektywy disallow w celu powstrzymania Google przed indeksowaniem stron często pomagało w utrzymaniu witryny. Te obawy są dziś odległym wspomnieniem.

Przeszukiwane i indeksowane to dwie różne rzeczy

Po dodaniu dyrektywy disallow do pliku robots.txt informuje się Googlebota i inne boty wyszukiwania, aby nie indeksowały tej strony lub stron w tym katalogu. Na przykład kiedy pisałem ten post, mój robots.txt zawiera:
Disallow: / wp-admin
Disallow: / *?

Pierwsza dyrektywa nie zezwala na żaden URL, który zaczyna się od sitename.com / wp-admin, włączając w to wszystko w katalogu / wp-admin /. Druga blokuje wszelkie adresy URL, które mają w sobie znak zapytania (przydatne, aby uniknąć przeszukiwania oryginalnej struktury? P = permalink). Jedno z lepszych wyjaśnień różnych wzorców, które można wykorzystać w pliku robots.txt w celu zezwalania i odrzucania, można znaleźć w Informacje dla programistów Google na robots.txt .

Ale informowanie Google i innych innych botów, że nie mogą zaindeksować strony, niekoniecznie uniemożliwia im indeksowanie strony. Nie indeksowanie i nie indeksowanie to dwie różne rzeczy. Pierwszy oznacza, że pająk w ogóle nie odwiedzi strony, drugi oznacza, że Google lub Bing nie udostępnią strony w wynikach wyszukiwania.

To jest, gdy napotkamy problemy.

To, że robots.txt uniemożliwia pająkowi odwiedzenie strony, nie oznacza, że Google lub Bing o tym nie wiedzą. Wyszukiwarki mogą dowiedzieć się o stronie z zewnętrznych stron linkujących do strony, a nawet z wewnętrznych linków (zwłaszcza jeśli link nie ma tagu rel nofollow). Google, w szczególności, jest chciwym małym potworem i żarliwie indeksuje wszystko, do czego się odnosi - nawet jeśli nie może indeksować strony. W ten sposób otrzymujesz referencje w indeksie Google, które mają adres URL (nie tytuł strony, ponieważ Google nie może go zobaczyć!) I fragment, który to mówi:

Opis tego wyniku nie jest dostępny ze względu na robots.txt tej strony - dowiedz się więcej.

Nie chcesz wiele z nich w indeksie Google.

Co zrobić, jeśli zablokowane adresy URL są indeksowane

Masz trzy sposoby na usunięcie adresów URL z indeksu Google.

Często najlepszym sposobem jest dodanie meta robotów noindex tag do sekcji głównej strony HTML. Mówi to pająkom, aby nie umieszczały adresu URL w indeksie. WAŻNE: Pająk musi zobaczyć tag, aby przetworzyć „noindex”. W związku z tym MUSISZ usunąć dyrektywę disallow z pliku robots.txt, aby umożliwić pająkowi dotarcie do strony, aby zrozumiał, że powinien usunąć adres URL z indeksu.
Jeśli strona została usunięta, usuń zakaz i pozwól Googlebotowi i innym robotom wyszukującym przeszukać i zobaczyć 404 (jeszcze lepiej użyj 410). Nie ma szkodliwego wpływu na strony Nie znaleziono lub Nieobecne w witrynie, zwłaszcza jeśli były to strony niskiej jakości. W końcu wypadną one z indeksu.
Inną metodą jest użycie narzędzia do usuwania adresów URL Google na koncie Narzędzi dla webmasterów Google (Webmasterzy Bing również mają narzędzie do usuwania). Dzięki takiemu podejściu chcesz zatrzymać nieszczęścia na miejscu, ponieważ jest to wymagane do usunięcia. Zwróć uwagę, że pojawiły się raporty o ponownym pojawieniu się adresów URL w indeksie po okresie 90 dni, więc Twój przebieg może się różnić.

Inne zaskakujące sposoby indeksowania adresu URL

Przychodzące linki do strony mogą nie być jedynym sposobem indeksowania adresu URL zablokowanego przez robots.txt. Oto kilka zaskakujących:

Usuwałbym również AdSense na stronie, której nie chcesz indeksować Google. Nie mam żadnych dowodów na to, że Google Adsense powoduje indeksowanie strony, ale i tak ją usunę.

Nie blokuj plików Javascript i innych zasobów za pomocą robots.txt

Używanie robots.txt było częstą praktyką uniemożliwiającą przeszukiwanie robotów sieciowych z dala od plików HTML, takich jak CSS, Javascript i pliki obrazów. Jednak w dniu 27 października 2014 r. Google zaktualizował swoje Wytyczne dla webmasterów technicznych, aby rekomendować tę praktykę, ponieważ jej system indeksowania zachowuje się teraz bardziej jak nowoczesna przeglądarka. w Październikowe ogłoszenie Google oświadcza: Niedozwolone indeksowanie plików JavaScript lub CSS w witrynie robots.txt bezpośrednio szkodzi temu, jak dobrze nasze algorytmy renderują i indeksują zawartość i mogą skutkować nieoptymalnym rankingiem.

W Google Search Console (wcześniej znanym jako Google Webmaster Tools) możesz sprawdzić „Zablokuj zasoby” w sekcji indeksowania Google, aby sprawdzić, czy nie blokujesz niczego, co Google uważa za ważne.

Kiedy nie używać robots.txt

Są dwa scenariusze, które mogę pomyśleć o tym, gdzie robots.txt nie działa, nadal są przydatne:

Chcesz szybko usunąć witrynę lub sekcję witryny: znacznie szybciej można użyć funkcji disallow robots.txt i funkcji Usuń adres URL wyszukiwarki Google w celu usunięcia witryny lub sekcji witryny z indeksu Google; niż dodanie znacznika noindex dla robotów meta i czekanie na ponowne przeszukiwanie stron przez Googlebota i zwracanie uwagi na noindex. Miałem klienta trafionego przez Pandę. Odkryliśmy, że mieli sekcję swojej witryny, która była najczęściej duplikowana w ich portfolio witryn, gdy usunęliśmy tę sekcję z indeksu Google za pomocą robota.txt disallow, a GSC usunęło adres URL, ich ruch w witrynie został odzyskany w ciągu miesiąca. Innym częstym scenariuszem jest stwierdzenie, że miejsce postoju lub witryna deweloperska zostały zaindeksowane (często poddomeną) i muszą usunąć je z wyników wyszukiwania Google.
Chcesz zachować przepustowość: często spotykany scenariusz to witryny, które tworzą oddzielny adres URL „ścieżki zwrotnej” za każdym razem, gdy użytkownik kliknie łącze logowania do strony źródłowej zawierającej łącze. Zazwyczaj radziłbym, aby po prostu dodać tag noindex meta robotów do tej strony logowania (i wszystkich wariantów), jednak możliwe jest, że indeksowanie tych stron marnuje przepustowość indeksowania Googlebota, która została przydzielona do Twojej witryny. Nadal uważam, że tag noindex meta robotów jest do zrobienia, jednak w przypadku dużych, złożonych witryn można mieć filtry i parametry, które tworzą nieskończoną liczbę stron, których Googlebot nie powinien indeksować. Niedozwolone działanie robots.txt może być odpowiednie w niektórych z tych przypadków.

Również aktualizacje pliku robots.txt nie są przetwarzane natychmiast. Widziałem przypadki, w których Google zaindeksowało wiele adresów URL przed przetworzeniem tych blokad. Dodaj więc swoje nieszczęścia co najmniej 24 godziny wcześniej.

Dzięki funkcji Google Search Console Remove URLs możesz usunąć stronę, podfolder lub całą witrynę z indeksu Google; tak długo, jak witryna jest blokowana przez robots.txt lub strona zwraca kod stanu Nie znaleziono HTTP 404. Musisz mieć uprawnienia administratora, aby przesyłać żądania usunięcia. I pamiętaj, że usunięcie może być tymczasowe. Więcej informacji na temat funkcji Usuń adresy URL można znaleźć tutaj .

Użyj pliku robots.txt, aby zabezpieczyć się oszczędnie

Plik robots.txt jest stary i jego użyteczność zmniejszyła się. Tak, nadal istnieją scenariusze, w których nieużywane są przydatne, ale często są nadużywane.

Ten post został pierwotnie opublikowany 10 września 2012 r. I został zaktualizowany 26 maja 2016 r.

Dokumentacja Robots.tx

Zdjęcie Pająka dzięki uprzejmości openclipart.org

Dlaczego Google mnie ignoruje?
Przydatne, aby uniknąć przeszukiwania oryginalnej struktury?