Як Majestic і LinkScape отримують необроблені дані?

Чи плаче вбудований детектор шкури в агонії, коли ви читаєте оголошення інструментів аналізу зв'язків, які стверджують, що вони сканували веб-сторінки в трильйонах Чи плаче вбудований детектор шкури в агонії, коли ви читаєте оголошення інструментів аналізу зв'язків, які стверджують, що вони сканували веб-сторінки в трильйонах? Чи може крихітний магазин SEO, або віддалений пошуковий механізм на ранніх стадіях працювати на переданому обладнанні, створити індекс такого розміру? Компанії Google знадобилося десятиліття, щоб досягти цих показників, і лише команда Google з веб-спаму перевищує кількість співробітників SEOmoz і Величний , не кажучи вже про інфраструктуру.

Добре, це є не такий shady як ви можете подумати, хоча є деякий серйозний хвастощі та willy б'є участь.

Перш за все, як SEOmoz, так і Majestic не мають індексованої копії Web. Вони обробляють розмітку лише для того, щоб витягувати гіперпосилання. Це означає, що вони аналізують веб-ресурси, в основному HTML-сторінки, для зберігання даних посилань. Після того, як кожне посилання та його атрибути (значення HREF та REL, текст прив'язки,…) зберігаються під URI веб-сторінки, розмітка буде відкинута. Саме тому ви не можете шукати ці індекси для ключових слів. Немає повного текстового індексу, необхідного для обчислення графіків посилань.

Вимоги до сховища для графіка посилань в Інтернеті є набагато меншими, ніж для повного текстового індексу, який мають працювати основні пошукові системи Вимоги до сховища для графіка посилань в Інтернеті є набагато меншими, ніж для повного текстового індексу, який мають працювати основні пошукові системи. Іншими словами, це правдоподібно.

Величний яскраво описує Цей процес і відкрито говорить про те, що вони індексувати лише посилання .

З SEOmoz це зовсім інша історія. Вони заплутують інформацію про технологію, що стоїть за LinkScape, до рівня, який можна описати як наближення до зміїної олії. Звичайно, можна стверджувати, що вони можуть бути абсолютно невідомими, але я цього не купую. Ви не можете створити такий інструмент, як LinkScape, який є дебілом з IQ, що знаходиться нижче амеби. Насправді, я знаю, що LinkScape розроблена надзвичайно яскравими людьми, тому ми маємо справу з a вводять в оману продажі :

Давайте кинемо в коментар до Sphinn , де рецензент SEOmoz опублікував " Наші боти, наш сканування, наш індекс ".

Звичайно, це висловлює глупоту. SEOmoz не має ресурсів для виконання такого завдання. Іншими словами, якщо - і це великий IF - вони працюють, як описано вище, вони працюють над надзвичайно підступним, що порушує веб-стандарти і моє розуміння справедливості та чесності. Власне, це не так, але тому, що це не так, LinkScape і OpenSiteExplorer у його поточній формі повинні померти (див. Нижче, чому).

Вони ображають як ваш інтелект, так і мій, і це, очевидно, не правильно, але я припускаю, що вони роблять це виключно для маркетингових цілей. Не те, що вони повинні прикривати свою роботу за допомогою такої димової завіси. LinkScape може досягти успіху з усіма фактами на столі. Я б назвав це акуратним інструментом SEO, якщо він просто буде законним.

Так що ж трапилося з висловлюваннями SEOmoz вище, і LinkScape взагалі?

Почнемо з "Сканування за останні 45 днів: 700 мільярдів посилань, 55 мільярдів URL-адрес, 63 мільйонів кореневих доменів". Це перекладається як "сканування ... 55 мільярдів веб-сторінок, включаючи 63 мільйони кореневих сторінок індексу, що несуть 700 мільярдів посилань". 13 посилань на сторінку є правдоподібним. Сканування 55 мільярдів URI вимагає надсилання запитів HTTP GET для отримання 55 мільярдів веб-ресурсів протягом 45 днів, це приблизно 30 терабайт на день. Можливо? Можливо.

Правда? Не так, як є. Складання чисел, таких як "скановані 700 мільярдів посилань", пропонує комплексний індекс 700 мільярдів URI. Я дуже сумніваюся, що SEOmoz "сканував" 700 мільярдів URI.

Коли SEOmoz дійсно буде сканувати Інтернет, вони повинні були б дотримуватися веб-стандартів, таких як протокол виключення роботів (REP). Ви знайдете їх у вашому журналі. Необхідна організація, що сканується в Інтернеті

  • зробити це з агентом користувача, який ідентифікує себе як сканер, наприклад, "Mozilla / 5.0 (сумісний; Seomozbot / 1.0; + http: //www.seomoz.com/bot.html)",
  • отримувати файл robots.txt щонайменше щодня,
  • надайте спосіб блокувати сканер robots.txt,
  • поважати директиви індексатора, наприклад, "noindex" або "nofollow" як в елементах META, так і в заголовках відповіді HTTP.

SEOmoz підкоряється тільки <META NAME = "SEOMOZ" CONTENT = "NOINDEX" />, відповідно до їх сторінки джерел . І саме ця сторінка показує, що вони купують свої дані з різних служб, включаючи пошукові системи. Вони не сканують одну веб-сторінку.

Досвідчені SEO повинні знати це сканування, синтаксичний аналіз і індексація це різні процеси. Чому SEOmoz наполягає на терміні «сканування», беручи все пластівці вони можуть отримати, коли вони, очевидно, нічого не повзають?

Дві претензії з трьох в "Наші боти, наш обхід, наш індекс" - це кричуща брехня. Якщо SEOmoz виконує будь-який сканування, крім обробки отриманих даних, не дотримуючись і повідомляючи про описану вище процедуру, це буде підступним. Я дійсно сподіваюся, що це не відбувається.

По суті, я хотів би бачити SEOmoz сканування. Я був би дуже, дуже щасливий, якщо б вони не придбали жодного байта результатів трейлера. Чому? Тому що я міг блокувати їх у файлі robots.txt. Якщо вони не отримують доступу до мого вмісту, мені не потрібно турбуватися, чи підкоряються моїм директив індексації (мета-тег роботів) чи ні.

Як сторона примітка, вимагаючи “SEOMOZ” robots META елемент відмовитися від їхнього аналізу зв'язку є звичайна крадіжка. Додавання такого коду до моїх сторінок займає багато часу, і це дорого. Крім того, виступає додаткова лінія коду в кожній секції HEAD, яка підсумовує багато втраченої пропускної здатності - $$! - з часом. Чи повинен я інвестувати свої важко зароблені гроші лише для того, щоб уникнути виявлення моїх вихідних посилань на моїх конкурентів? Саме тому я повинен повідомити SEOmoz FTC просити їх закрити LinkScape вниз якнайшвидше.

Вони не підкоряються X-Robots-Tag ("noindex" / "nofollow" / ... в заголовку HTTP). Робота з придбаними даними з різних джерел не гарантує, що вони навіть отримують ці заголовки. Крім того, чому я їм повинен обслуговувати MSNbot, Slurp або Googlebot заголовок HTTP, звертаючись до SEOmoz? Це може поставити в небезпеку мою видимість пошукової системи.

Якщо вони повзають самі, обслуговуючи свого агента користувача, то "noindex" X-Robots-Tag і 403 можуть бути виконаними, принаймні, коли вони платять за мої зусилля. З їх поточною установкою це технічно неможливо. Вони могли перейти на 80legs.com повністю, що вирішить проблему, якщо 80legs працює 100% від REP і сканує як "SEOmozBot" або так.

С MajesticSEO це не проблема, тому що я можу заблокувати їх сканер с
User-agent: MJ12bot
Заборонити: /

Провідник сайту Yahoo також надає занадто багато даних. Я не можу заблокувати його, не втрачаючи трафік пошукової системи. Оскільки це, швидше за все, загине, коли Microsoft наздожене search.yahoo.com, про це я не називаю. Google і Bing не розкривають мої дані про зв'язок для всіх.

У мене проблема з LinkScape SEOmoz, а також OpenSiteExplorer. Це досить серйозно, що я кажу, що вони повинні закрити його, якщо вони не хочуть змінювати свою архітектуру. І це не має нічого спільного з оманливими цінами продажів, або зарозумілою поведінкою, або симпатією (відповідно, можливою відсутністю симпатії).

Аналіз конкурентних зв'язків OpenSiteExplorer / LinkScape надає, не даючи мені реального шансу відмовитися, ставить під загрозу мій бізнес. Наскільки я ціную можливість проаналізувати моїх конкурентів, навпаки, це просто зло. Звідси просто вбити його.

Чи є мій занадто екстремальний? Будь ласка, просвітите мене в коментарях.

Оновлення: наступний пост від Michael VanDeMar і його Обговорення Sphinn , перший потік LinkScape в Sphinn , і Sphinn коментує цю брошуру .

Чи плаче вбудований детектор шкури в агонії, коли ви читаєте оголошення інструментів аналізу зв'язків, які стверджують, що вони сканували веб-сторінки в трильйонах?
Чи може крихітний магазин SEO, або віддалений пошуковий механізм на ранніх стадіях працювати на переданому обладнанні, створити індекс такого розміру?
Так що ж трапилося з висловлюваннями SEOmoz вище, і LinkScape взагалі?
Можливо?
Правда?
Чому?
Чи повинен я інвестувати свої важко зароблені гроші лише для того, щоб уникнути виявлення моїх вихідних посилань на моїх конкурентів?
Крім того, чому я їм повинен обслуговувати MSNbot, Slurp або Googlebot заголовок HTTP, звертаючись до SEOmoz?
Чи є мій занадто екстремальний?