Jak Majestic i LinkScape pobierają swoje surowe dane?

Czy twój wbudowany wykrywacz bzdur płacze w agonii, gdy czytasz ogłoszenia o narzędziach analizy linków, które twierdzą, że przeszukali strony internetowe w bilionach Czy twój wbudowany wykrywacz bzdur płacze w agonii, gdy czytasz ogłoszenia o narzędziach analizy linków, które twierdzą, że przeszukali strony internetowe w bilionach? Czy malutki sklep SEO lub zdalna wyszukiwarka na wczesnym etapie działa na darowanym sprzęcie, może zbudować indeks o takim rozmiarze? Google dotarło do tej liczby dziesięć lat, a sam zespół Google Webspam przewyższa liczbę pracowników SEOmoz i Majestatyczny , nie mówiąc już o infrastrukturze.

Cóż, nie jest tak zacieniony, jak mogłoby się wydawać, choć wiąże się z tym poważne przechwałki i chciwość.

Po pierwsze, zarówno SEOmoz, jak i Majestic nie są właścicielami indeksowanej kopii Internetu. Przetwarzają znaczniki, aby wyodrębnić hiperłącza. Oznacza to, że analizują zasoby sieci Web, głównie strony HTML, w celu przechowywania danych powiązań. Gdy każde łącze i jego atrybuty (wartości HREF i REL, tekst zakotwiczenia,…) są przechowywane pod URI strony internetowej, znaczniki są odrzucane. Dlatego nie możesz przeszukiwać tych indeksów pod kątem słów kluczowych. Nie ma indeksu pełnego tekstu niezbędnego do obliczenia wykresów linków.

Wymagania dotyczące przechowywania grafu łącza internetowego są znacznie mniejsze niż w przypadku indeksu pełnotekstowego, z którym muszą sobie radzić największe wyszukiwarki Wymagania dotyczące przechowywania grafu łącza internetowego są znacznie mniejsze niż w przypadku indeksu pełnotekstowego, z którym muszą sobie radzić największe wyszukiwarki. Innymi słowy, jest to wiarygodne.

Majestatyczny wyraźnie opisuje ten proces i otwarcie mówi, że oni indeksuj tylko linki .

Z SEOmoz to zupełnie inna historia. Ukrywają informacje o technologii za LinkScape do poziomu, który można określić jako olej wężowy. Oczywiście można argumentować, że mogą być całkowicie nieświadomi, ale tego nie kupuję. Nie możesz stworzyć narzędzia takiego jak LinkScape będąc kretynem z IQ nieznacznie poniżej ameby. Właściwie wiem, że LinkScape został opracowany przez niezwykle błyskotliwych ludzi, więc mamy do czynienia z wprowadzająca w błąd wysokość sprzedaży :

Rzućmy się komentarz w Sphinn , gdzie przedstawiciel SEOmoz napisał „ Nasze boty, nasze indeksowanie, nasz indeks ”.

Oczywiście to kompletne bzdury. SEOmoz nie ma środków na wykonanie tego zadania. Innymi słowy, jeśli - i to jest duże JEŚLI - działają tak, jak opisano powyżej, działają w sposób niezwykle podstępny, który łamie standardy sieciowe i rozumiem uczciwość i uczciwość. Właściwie tak nie jest, ale ponieważ tak nie jest, LinkScape i OpenSiteExplorer w obecnym kształcie muszą umrzeć (patrz poniżej, dlaczego).

Obrażają zarówno twoją inteligencję, jak i moją, a to oczywiście nie jest właściwe, ale zakładam, że robią to wyłącznie w celach marketingowych. Nie, żeby musieli ukrywać swoje działanie za pomocą zasłony dymnej. LinkScape może odnieść sukces ze wszystkimi faktami na stole. Nazwałbym to zgrabnym narzędziem SEO, gdyby było po prostu legalne.

Co więc jest nie tak z powyższymi stwierdzeniami SEOmoz i LinkScape?

Zacznijmy od „Przeszukiwania w ciągu ostatnich 45 dni: 700 miliardów linków, 55 miliardów adresów URL, 63 milionów domen root”. Przekłada się to na „przeszukanie… 55 miliardów stron internetowych, w tym 63 miliony stron indeksu głównego, zawierających 700 miliardów linków”. Prawdopodobnie jest 13 linków na stronę. Czołgać się 55 miliardów URI wymaga wysyłania żądań HTTP GET, aby pobrać 55 miliardów zasobów internetowych w ciągu 45 dni, co stanowi około 30 terabajtów dziennie. Do przyjęcia? Być może.

Prawdziwe? Nie tak jak jest. Uzupełnianie liczb, takich jak „indeksowanie 700 miliardów linków”, sugeruje kompleksowy indeks 700 miliardów URI. Wątpię, by SEOmoz „przeszukiwał” 700 miliardów URI.

Gdy SEOmoz naprawdę przeszukałby sieć, musieliby przestrzegać standardów sieciowych, takich jak protokół wykluczania robotów (REP). Znajdziesz ich robota w swoich dziennikach. Organizacja indeksująca sieć musi

  • zrób to za pomocą agenta użytkownika, który identyfikuje się jako przeszukiwacz, na przykład „Mozilla / 5.0 (zgodny; Seomozbot / 1.0; + http: //www.seomoz.com/bot.html)”,
  • pobieraj robots.txt co najmniej raz dziennie,
  • podaj metodę blokowania swojego robota za pomocą robots.txt,
  • szanuj dyrektywy indeksujące, takie jak „noindex” lub „nofollow” zarówno w elementach META, jak iw nagłówkach odpowiedzi HTTP.

SEOmoz przestrzega tylko <META NAME = "SEOMOZ" CONTENT = "NOINDEX" />, zgodnie z ich strona źródeł . I dokładnie ta strona ujawnia, że ​​kupują dane z różnych usług, w tym z wyszukiwarek. Nie indeksują pojedynczej strony internetowej.

Doświadczeni SEO powinni to wiedzieć indeksowanie, parsowanie i indeksowanie są różne procesy. Dlaczego SEOmoz nalega na określenie „indeksowanie”, biorąc wszystko artyleria przeciwlotnicza mogą się dostać, kiedy oczywiście niczego nie pełzają?

Dwa roszczenia z trzech w „Nasze boty, nasz indeks, nasz indeks” są jawnymi kłamstwami. Jeśli SEOmoz wykonuje indeksowanie, oprócz przetwarzania zakupionych danych, bez podążania i przekazywania opisanej powyżej procedury, byłoby to podstępne. Naprawdę mam nadzieję, że tak się nie dzieje.

Właściwie chciałbym zobaczyć indeksowanie SEOmoza. Byłbym bardzo, bardzo szczęśliwy, gdyby nie kupili jednego bajtu wyników przeszukiwaczy innych firm. Czemu? Ponieważ mogłem je zablokować w robots.txt. Jeśli nie mają dostępu do moich treści, nie muszę się martwić, czy stosują się do moich dyrektyw indeksujących (meta robotów „tag”), czy nie.

Na marginesie, wymaganie, aby element META robotów „SEOMOZ” zrezygnował z analizy łączy, jest zwykłą kradzieżą. Dodanie takiego kodu do moich stron zajmuje dużo czasu, a to jest kosztowne. Ponadto obsługiwanie dodatkowej linii kodu w każdej sekcji HEAD sumuje się z dużą ilością zmarnowanego pasma - $$! - z czasem. Czy mam zainwestować moje ciężko zarobione dolary tylko po to, by nie ujawnić moich linków wychodzących do moich konkurentów? Tylko z tego powodu powinienem zgłosić SEOmoz do FTC z prośbą o zamknięcie LinkScape jak najszybciej.

Nie przestrzegają X-Robots-Tag („noindex” / ”nofollow” /… w nagłówku HTTP) z jakiegoś powodu. Pracując z zakupionymi danymi z różnych źródeł, nie mogą zagwarantować, że otrzymają nawet te nagłówki. Ponadto, dlaczego kurwa powinienem obsługiwać MSNbot, Slurp lub Googlebot nagłówek HTTP adresujący SEOmoz? Może to zagrozić widoczności mojej wyszukiwarki.

Jeśli się zaindeksują, obsługując swojego agenta użytkownika „noindex” X-Robots-Tag i 403 mogą być wykonalne, przynajmniej jeśli płacą za moje wysiłki. Z ich obecną konfiguracją technicznie niemożliwe. Mogli się przełączyć na 80legs.com całkowicie to rozwiąże problem, pod warunkiem, że 80legs działa w 100% przez REP i przemierza się jako „SEOmozBot”.

Z MajesticSEO to nie problem, bo mogę zablokuj ich robota z
User-agent: MJ12bot
Disallow: /

Eksplorator witryn Yahoo dostarcza również zbyt wiele danych. Nie mogę go zablokować bez utraty ruchu w wyszukiwarce. Ponieważ prawdopodobnie umrze, gdy Microsoft wyprzedzi search.yahoo.com, nie mam o tym wiele do powiedzenia. Google i Bing nie ujawniają moich danych dotyczących powiązań wszystkim.

Mam problem z LinkScape SEOmoz i OpenSiteExplorer. Jest na tyle poważny, że mówię, że muszą go zamknąć, jeśli nie chcą zmienić swojej architektury. I to nie ma nic wspólnego z wprowadzającymi w błąd boiskami sprzedaży, aroganckim zachowaniem lub współczuciem (odpowiednio, prawdopodobnie brakiem współczucia).

Analiza linków konkurencyjnych OpenSiteExplorer / LinkScape zapewnia, nie dając mi realnej szansy na rezygnację, naraża moją firmę na ryzyko. Choć doceniam możliwość analizy moich konkurentów, odwrotnie, jest to wręcz złe. Stąd po prostu go zabij.

Czy moje podejście jest zbyt ekstremalne? Proszę mnie oświecić w komentarzach.

Aktualizacja: A kolejna wiadomość od Michaela VanDeMara i jego Dyskusja Sphinn , the pierwszy wątek LinkScape w Sphinn , i Sphinn komentuje tę broszurę .

Czy twój wbudowany wykrywacz bzdur płacze w agonii, gdy czytasz ogłoszenia o narzędziach analizy linków, które twierdzą, że przeszukali strony internetowe w bilionach?
Czy malutki sklep SEO lub zdalna wyszukiwarka na wczesnym etapie działa na darowanym sprzęcie, może zbudować indeks o takim rozmiarze?
Co więc jest nie tak z powyższymi stwierdzeniami SEOmoz i LinkScape?
Do przyjęcia?
Prawdziwe?
Czemu?
Czy mam zainwestować moje ciężko zarobione dolary tylko po to, by nie ujawnić moich linków wychodzących do moich konkurentów?
Ponadto, dlaczego kurwa powinienem obsługiwać MSNbot, Slurp lub Googlebot nagłówek HTTP adresujący SEOmoz?
Czy moje podejście jest zbyt ekstremalne?