Robots.txt Забараняе можа пашкодзіць SEO больш, чым дапамагчы

Сканаванні і індэксавання дзве розныя рэчы
Што рабіць, калі вашы заблякаваныя адрасу індэксуюцца
Іншыя дзіўныя спосабы ваш URL індэксуецца
Не блакаваць Javascript файлы і іншыя рэсурсы з robots.txt Забараняе
Калі выкарыстоўваць robots.txt Забараняе
Выкарыстоўвайце robots.txt забараніць эканомна

Чаму мой сайт не рэйтынг !!!

«Вы павінны дапамагчы мне, мой новы сайт не рэйтынг у любым месцы. Чаму Google ігнаруе мяне? »

Я паглядзеў і досыць упэўнены ў файл robots.txt сайта быў створаны, каб заблакаваць Google і іншыя пошукавыя сістэмы ад поўзання па ўсім сайце. На шчасце, выпраўленне было лёгка. Я змяніў файл з гэтага:
Агент карыстальніка: *
Disallow: /
Для гэтага:
Агент карыстальніка: *
Disallow:
Праблема вырашана.
(Вы таксама можаце проста выдаліць файл.)

Я мог бы выходзіць на канечнасці тут, але я бачыў больш праблем, выкліканых няправільным выкарыстаннем файла robots.txt, чым вырашыць.

Адно з самых вялікіх памылак аб robots.txt дырэктыў Disallow у тым, што яны з'яўляюцца доказам дурань спосабам захаваць старонкі з індэкса Google. Мала таго, што гэта не так, але калі старонкі праіндэксаваныя - яны індэксуюцца з амаль ніякай інфармацыі, дадаўшы шмат нізкага якасць амаль дубляваны кантэнт у індэкс, які можа цягнуцца ўніз прадукцыйнасцю SEO вашага сайта.

Файл robots.txt быў вакол на працягу многіх гадоў. У тыя першыя дні, паласа прапускання больш каштоўных і Googlebot часта абкладаныя серверы, нават ўрэзацца іх, калі ён поўз сайт. Такім чынам, выкарыстоўваючы дырэктыву Disallow, каб Google сканаваў старонкі часта дапамагае захаваць месца ўверх. Гэтыя праблемы з'яўляюцца далёкім успамінам сёння.

Сканаванні і індэксавання дзве розныя рэчы

Пры даданні дырэктывы Disallow ў файле robots.txt вы кажаце Googlebot і іншыя пошукавыя робаты ня сканаваць гэтую старонку, або старонкі ў гэтым каталогу. Напрыклад, калі я першапачаткова напісаў гэты пост, мой robots.txt ўключае:
Disallow: / WP-адміністратара
Disallow: / *?

Першая дырэктыва забараняе ўсялякі URL , які пачынаецца з sitename.com / WP-адміністратара , уключаючы ўсе , в / смецце-адмін / каталог. Другі забараняюць любыя URL-адрас, якія маюць знак пытання ў іх (карысна, каб пазбегнуць сканавання арыгінала? Р = пастаяннай спасылка структуры). Адзін з лепшага тлумачэння розных мадэляў, якія можна выкарыстоўваць у robots.txt для дазваляе і Забараняе можна знайсці ў Інфармацыя для распрацоўшчыкаў Google у robots.txt ,

Але казаць Google і іншыя іншыя ботам, што яны не могуць поўзаць старонкі не абавязкова прадухіляе іх ад індэксацыі старонкі. Ня поўзаць і ня індэксаваць дзве розныя рэчы. Першы азначае, што павук не будзе наведваць старонку на ўсіх, другое азначае, што Google або Bing не зробіць старонку даступнай ў выніках пошуку.

Гэта калі мы сутыкаемся з праблемамі.

Проста таму, што ваш robots.txt прадухіляе павук ад наведвання старонкі не азначае, што Google або Bing не ведае пра гэта. Пашукавікі могуць даведацца пра старонку з знешніх сайтаў, якія б спасылаліся на старонкі, і нават ад вашых ўнутраных спасылак (асабліва калі сувязь не мае отн NOFOLLOW тэг). Google, у прыватнасці, з'яўляецца маленькім прагным монстрам і будзе запоем індэкс ўсё, што ён знаходзіць спасылку на - нават калі ён не можа сканаваць старонку. Такім чынам, вы ў канчатковым выніку са спасылкамі ў індэксе Google, якія маюць URL (а не загаловак старонкі, таму што Google не можа ўбачыць яго!) І фрагмент кода, які кажа гэта:

Апісанне гэтага выніку не даступны з-за robots.txt гэтага сайта - даведацца больш.

Вы не хочаце шмат з іх у індэксе Google.

Што рабіць, калі вашы заблякаваныя адрасу індэксуюцца

У вас ёсць тры спосабы, каб атрымаць URL-адрас з індэкса Google.

Часта лепшы спосаб, каб дадаць мета робатаў NOINDEX тэг на вашай старонцы галаўнога секцыі HTML. Гэта сведчыць павукоў ня ставіць URL у свой індэкс. ВАЖНА: павук павінен убачыць тэг для апрацоўкі «NoIndex». Такім чынам , вы павінны выдаліць DISALLOW дырэктыву з вашага файла robots.txt , каб дазволіць павуку дабрацца да старонкі , таму ён разумее , што павінен выдаліць URL з індэкса.
Калі старонка была выдаленая, выдаліце Disallow і хай Googlebot і іншыя пошукавыя робаты поўзаюць і ўбачыць 404 (яшчэ лепш выкарыстоўваць 410). Гэта не шкодна, што не знойдзены або Панесеных старонак на вашым сайце, асабліва калі яны былі старонкі нізкага якасці. Яны ў канчатковым рахунку выпадаюць з азначніка.
Іншы метад складаецца ў выкарыстанні інструмент для выдалення URL Google ў вашым Інструменты ўліковага запісу Google для вэб-майстроў (Bing Вэбмайстрам таксама інструмент для выдалення). Пры такім падыходзе вы хочаце захаваць Забараняе на месцы, як гэта патрабаванне для выдалення. Звярніце ўвагу, што былі некаторыя даклады URL-адрасоў з'яўляючыся ў індэксе пасля перыяду 90 дзён таму прабег можа вар'іравацца.

Іншыя дзіўныя спосабы ваш URL індэксуецца

Якія ўваходзяць спасылкі на старонкі, не могуць быць адзіным спосабам, што URL заблякаваны ў файле robots.txt індэксуецца. Вось некалькі дзіўных з іх:

Я хацеў бы таксама выдаліць любы Adsense на старонцы вы маюць намер захаваць з індэкса Google. У мяне няма ніякіх доказаў таго, што Google Adsense выклікае старонкі індэксаваць, але я б выдаліць яго ў любым выпадку.

Не блакаваць Javascript файлы і іншыя рэсурсы з robots.txt Забараняе

Раней была звычайная практыкай выкарыстоўваць robots.txt Забараняе трымаць вэб-сканеры далей ад ня HTML файлаў, такіх як CSS, Javascript і файлы малюнкаў. Аднак у 27 кастрычніку 2014 Google абнавіў сваё Кіраўніцтва Тэхнічных вэб-майстроў, каб рэкамендаваць супраць гэтай практыкі, як яго сістэма індэксацыі цяпер паводзіць сябе як сучасны браўзэр. у аб'яву кастрычніка Google заяўляе: Забарона шукальніка Javascript або CSS - файлы ў файле robots.txt вашага сайта наўпрост шкодзіць , наколькі добра нашы алгарытмы візуалізацыі і індэксаваць ўтрыманне і можа прывесці да неаптымальнай рэйтынгу.

У Google Search Console (раней вядомы як Google Webmaster Tools,), вы можаце праверыць «Блакаваць рэсурсы» ў раздзеле Crawl Google пераправерыць вы нічога, што Google лічыць важным не перакрытыя.

Калі выкарыстоўваць robots.txt Забараняе

Ёсць два сцэнара, якія я магу думаць пра тое, дзе robots.txt Забараняе ўсё яшчэ карысныя:

Вы хочаце выдаліць сайт або раздзел сайта хутка: Гэта нашмат хутчэй , каб выкарыстоўваць robots.txt Disallow і функцыю Выдаліць URL Google Search Console, каб выдаліць сайт або раздзел сайта з індэкса Google; чым даданне мета робатаў NoIndex тэг і чакае Googlebot на паўторнае сканаванне старонкі і прыслухацца да NoIndex. У мяне быў кліент, які быў пацярпелі ад Panda. Мы выявілі, што ў іх быў раздзел свайго сайта, які быў у асноўным дублюецца праз іх партфель сайтаў, калі мы выдалілі гэты раздзел з індэкса Google, выкарыстоўваючы robot.txt Disallow і GSC Выдаліць URL, іх сайт трафік вынятага на працягу месяца. Іншы распаўсюджаны сцэнар знаходзіць, што пастаноўка або развіццё сайта мае атрымалі індэксаваная (часта субдомен) і неабходнасці выдаліць яго з вынікаў пошуку Google.
Вы хочаце , каб захаваць прапускную здольнасць: Агульны сцэнар я бачу сайты , якія ствараюць асобны «зваротны шлях» URL кожны раз , калі карыстальнік націскае на спасылку Уваход для старонкі крыніцы , які мае спасылку. Звычайна я б параіў проста дадаць мету робатаў NOINDEX тэгаў да гэтай старонцы ўваходу (і ўсім варыянтам), аднак магчымая праблема ў тым, што сканаванне гэтых старонак марнаваць прапускную здольнасць сканавання Googlebot, якая была выдзелена на ваш сайт. Я да гэтага часу лічу, што мэта-робаты NOINDEX тэг з'яўляецца шляхам, аднак з вялікімі складанымі сайтамі можна мець фільтры і параметры, якія ствараюць бясконцая колькасць старонак, якія Googlebot ня поўзаць. Файл robots.txt Disallow можа быць мэтазгодным ў некаторых з гэтых выпадкаў.

Таксама абнаўляецца ў файле robots.txt не апрацоўваюцца імгненна. Я бачыў выпадкі, калі Google сканаваў шэраг URL-адрасоў перад апрацоўкай Забараняе. Так што дадайце вашыя Забараняе па меншай меры за 24 гадзіны.

З Google Search Console Выдаліць URL-адрасы функцыі вы можаце выдаліць старонку, тэчку або суб ўвесь сайт з індэкса Google; да таго часу, як сайт заблякаваны ў файле robots.txt або старонка вяртае 404 не знойдзены код стану HTTP. Вы павінны мець правы адміністратара, каб прадставіць запыты на выдаленне. І майце на ўвазе, што выдаленне можа быць часовым. Больш падрабязную інфармацыю аб функцыі Выдаліць URL-адрасы можна знайсці тут ,

Выкарыстоўвайце robots.txt забараніць эканомна

Файл robots.txt стары, і гэта карыснасць паменшылася. Так, ёсць яшчэ сітуацыі, у якіх Забараняе карысныя, але яны часта няправільна.

Гэта паведамленне было першапачаткова апублікаванае 10 верасня 2012 года і быў абноўлены 26 мая 2016 года.

Robots.tx дакументацыя

Павук Малюнак прадастаўлена openclipart.org

Чаму Google ігнаруе мяне?
Карысна, каб пазбегнуць сканавання арыгінала?