Як Majestic і LinkScape атрымліваюць свае сырыя дадзеныя?

Ці ўтрымлівае ваш убудаваны дэтэктар фігур у пакутах, калі вы чытаеце паведамленні аб інструментах аналізу спасылак, якія сцвярджаюць, што праходзяць вэб-старонкі ў трыльёны? Ці можа малюсенькі магазін SEO або выдаленая пошукавая сістэма на ранніх этапах працы з ахвяраваным абсталяваннем стварыць паказчык такога памеру? Google спатрэбілася дзесяцігоддзе, каб дасягнуць гэтых лічбаў, і каманда вэб-камер Google толькі пераўзыходзіць персанал SEOmoz і Велічны , не кажучы ўжо пра інфраструктуру.

Ну, гэта не так цяніста, як вы маглі б падумаць, хоць тут ёсць сур'ёзная хвальба і неахвотная хуліганства.

Перш за ўсё, як SEOmoz, так і Majestic не валодаюць індэксаванай копіяй Інтэрнэту. Яны апрацоўваюць разметку толькі для атрымання гіперспасылак. Гэта азначае, што яны разбіраюць вэб-рэсурсы, у асноўным, HTML-старонкі, для захоўвання дадзеных сувязі. Пасля таго, як кожная спасылка і яе атрыбуты (значэнні HREF і REL, тэкст якара ...) будуць захоўвацца ў URI вэб-старонкі, разметка будзе скінутая. Таму вы не можаце шукаць гэтыя паказчыкі па ключавых словах. Для вылічэння графікаў спасылак няма поўнага тэкставага індэкса.

Патрабаванні да захоўвання графіка спасылак у Інтэрнэце нашмат менш, чым для поўнатэкставага індэкса, якімі трэба звяртацца з асноўных пошукавых сістэм. Іншымі словамі, гэта праўдападобна.

Велічны ясна апісвае гэты працэс, і адкрыта кажа, што яны Індэкс спасылкі толькі .

З SEOmoz гэта зусім іншая гісторыя. Яны засмучаюць інфармацыю пра тэхналогію LinkScape да ўзроўню, які можна было б ахарактарызаваць як алей амаль-змеі. Зразумела, можна сцвярджаць, што яны могуць быць абсалютна бясшкоднымі, але я гэтага не купляю. Вы не можаце стварыць такі інструмент, як LinkScape - гэта ісціна з IQ, які знаходзіцца ніжэй за амебу. На самай справе, я ведаю, што LinkScape быў распрацаваны вельмі яркімі людзьмі, таму мы маем справу з ўводзіць у зман крок продажаў :

Давайце кінуць у каментар у Сфін , дзе прадстаўнік SEOmoz размясціў « Нашы боты, сканаванне, наш індэкс ».

Вядома, гэта абсалютная фігня. SEOmoz не мае рэсурсаў для выканання такой задачы. Іншымі словамі, калі - і гэта вялікая IF - яны працуюць, як апісана вышэй, яны працуюць нешта надзвычай падступнае, якое парушае вэб-стандарты і маё разуменне справядлівасці і сумленнасці. На самай справе, гэта не так, але таму, што гэта не так, LinkScape і OpenSiteExplorer ў бягучай форме павінны памерці (гл. Ніжэй, чаму).

Яны абражаюць і ваш інтэлект, і мой, і гэта, відавочна, не тое, што трэба зрабіць, але я мяркую, што яны робяць гэта выключна ў маркетынгавых мэтах. Не тое, каб яны дапусцілі працу дымавым экранам. LinkScape можа дамагчыся поспеху з усімі фактамі на стале. Я б назваў гэта акуратным інструментам SEO, калі б гэта было б законна.

Дык што здарылася з вышэйсказанымі SEOmoz і зусім LinkScape?

Давайце пачнем з "Crawled за апошнія 45 дзён: 700 мільярдаў спасылак, 55 мільярдаў URL, 63 мільёна каранёвых даменаў". Гэта азначае "сканаванне ... 55 мільярдаў вэб-старонак, у тым ліку 63 мільёна каранёвых індэксаў, якія маюць 700 мільярдаў спасылак". 13 спасылак на старонку праўдападобна. Поўзаць 55 мільярдаў URI патрабуюць адпраўкі запытаў HTTP GET для атрымання 55 мільярдаў вэб-рэсурсаў на працягу 45 дзён, гэта прыкладна 30 терабайт у дзень. Магчыма? Магчыма.

Праўда? Не так, як ёсць. Складанне такіх нумароў, як "сканаванне 700 мільярдаў спасылак", прапануе поўны індэкс 700 мільярдаў URI. Я вельмі сумняваюся, што SEOmoz "сканаваў" 700 мільярдаў URI.

Калі SEOmoz сапраўды будзе сканаваць Інтэрнэт, яны павінны выконваць такія стандарты, як пратакол выключэння робатаў (REP). Вы выявіце іх гусенічных часопісах у вашых часопісах. Арганізацыя скануе Інтэрнэт павінна

зрабіць гэта з дапамогай агента карыстальніка, які ідэнтыфікуе сябе як сканер, напрыклад, "Mozilla / 5.0 (сумяшчальны; Seomozbot / 1.0; + http: //www.seomoz.com/bot.html)",
прынесці robots.txt прынамсі штодня,
забяспечыць спосаб заблакаваць сканер robots.txt,
паважаць дырэктывы індэкса, такія як "noindex" ці "nofollow" як у элементах META, так і ў загалоўках адказу HTTP.

SEOmoz падпарадкоўваецца толькі <META NAME = "SEOMOZ" ЗМЕСТ = "NOINDEX" />, у адпаведнасці з іх старонка крыніц . І менавіта на гэтай старонцы паказана, што яны набываюць свае дадзеныя ў розных паслугах, уключаючы пошукавыя сістэмы. Яны не скануюць ні адну вэб-старонку.

Гэта павінны ведаць разумныя СЭО сканаванне, аналіз і індэксаванне розныя працэсы. Чаму SEOmoz настойвае на тым, каб тэрмін «поўзаць», прымаючы ўсё гэта flak яны могуць атрымаць, калі яны відавочна нічога не скануюць?

Дзве прэтэнзіі з трох у «Нашых ботах, наш сканіраванне, наш індэкс» - гэта хлуслівая хлусня. Калі SEOmoz выконвае якія-небудзь сканаванні, у дадатак да апрацоўкі набытых дадзеных, не выконваючы і не паведамляючы працэдуру, выкладзеную вышэй, гэта было б дрэнна. Я вельмі спадзяюся, што гэтага не адбудзецца.

На самай справе, я хацеў бы бачыць SEOmoz поўзаць. Я быў бы вельмі, вельмі рады, калі б яны не куплялі ніводнага байта вынікаў трэцяга боку. Чаму? Таму што я мог бы заблакаваць іх у robots.txt. Калі яны не атрымліваюць доступ да майго змесціва, мне не прыйдзецца турбавацца, падпарадкоўваюцца яны маім указанням індэкса (робаты мета-тэг) ці не.

У якасці заўвагі, патрабаванне, каб элемент робатаў "SEOMOZ" META адмаўляўся ад аналізу спасылак, - гэта проста крадзеж. Даданне такога коду наваротаў да маіх старонак займае шмат часу, і гэта дорага. Акрамя таго, прадастаўленне дадатковай радкі кода ў кожным раздзеле HEAD складае да вялікай колькасці марна прапускной здольнасці - $$! - з цягам часу. Ці павінен я інвеставаць свае заробленыя грошы, каб не даць мне спасылкі на сваіх канкурэнтаў? Толькі па гэтай прычыне мне трэба паведаміць SEOmoz у FTC з просьбай закрыць LinkScape як мага хутчэй.

Па прычыне яны не падпарадкоўваюцца X-Robots-Tag ("noindex" / "nofollow" / ... у загалоўку HTTP). Працуючы з набытымі дадзенымі з розных крыніц, яны не могуць гарантаваць, што нават атрымаюць гэтыя загалоўкі. Акрамя таго, чаму я павінен служыць MSNbot, Slurp або Googlebot загалоўкам HTTP, які займаецца SEOmoz? Гэта можа пагражаць бачнасці маёй пошукавай сістэмы.

Калі б яны лезлі самастойна, абслугоўваючы агента карыстальніка "X-Robots-Tag" noindex "і 403, магчыма, гэта магчыма, па меншай меры, калі яны плацяць за мае намаганні. З іх бягучай наладкай гэта тэхнічна немагчыма. Яны маглі б пераключыцца на 80legs.com цалкам, гэта вырашыць праблему пры ўмове, што REP працуе на 80legs 100% ад працы і скануе як "SEOmozBot".

З MajesticSEO гэта не праблема, таму што я магу блакаваць іх гусенічных з
Карыстальнік-агент: MJ12bot
Забараніць: /

Правадыра Yahoo таксама дае занадта шмат дадзеных. Я не магу заблакаваць яго, не губляючы трафіку пошукавай сістэмы. Паколькі яна, верагодна, памрэ, калі Microsoft абгоніць search.yahoo.com, я не вельмі шкадую аб гэтым. Google і Bing не раскрываюць усе дадзеныя маёй сувязі.

У мяне праблема з LinkScape SEOmoz і OpenSiteExplorer. Гэта досыць сур'ёзна, што я кажу, што яны павінны закрыць яго, калі яны не жадаюць змяніць сваю архітэктуру. І гэта не мае ніякага дачынення да ўводзіць у зман гандлёвыя плямы, альбо нахабнае паводзіны, альбо сімпатыю (адпаведна, магчыма, адсутнасць сімпатыі).

Канкурэнтны аналіз спасылак OpenSiteExplorer / LinkScape забяспечвае, не даючы мне рэальнага шанцу адмовіцца, ставіць пад пагрозу мой бізнэс. Наколькі я цаню магчымасць прааналізаваць маіх канкурэнтаў, наадварот, гэта проста зло. Такім чынам, проста забіць яго.

Ці лічыць мой занадта экстрэмальны? Калі ласка, асветлі мяне ў каментарах.

Абнаўленне: А. наступны пост ад Michael VanDeMar і яго Сфін абмеркавання , Першы паток LinkScape у Sphinn , і Сфін каментуе гэтую брашуру .

Ці ўтрымлівае ваш убудаваны дэтэктар фігур у пакутах, калі вы чытаеце паведамленні аб інструментах аналізу спасылак, якія сцвярджаюць, што праходзяць вэб-старонкі ў трыльёны?
Ці можа малюсенькі магазін SEO або выдаленая пошукавая сістэма на ранніх этапах працы з ахвяраваным абсталяваннем стварыць паказчык такога памеру?
Дык што здарылася з вышэйсказанымі SEOmoz і зусім LinkScape?
Магчыма?
Праўда?
Чаму?
Ці павінен я інвеставаць свае заробленыя грошы, каб не даць мне спасылкі на сваіх канкурэнтаў?
Акрамя таго, чаму я павінен служыць MSNbot, Slurp або Googlebot загалоўкам HTTP, які займаецца SEOmoz?
Ці лічыць мой занадта экстрэмальны?

Интернет-магазин SHOP-MODA. Мужская и женская обувь, сумки и аксессуары

Як Majestic і LinkScape атрымліваюць свае сырыя дадзеныя?