Zaawansowana konfiguracja i RegEx dla Screaming Frog

Konfiguracja
Używanie wyrażeń regularnych
Przepisywanie adresów URL
Skuteczniejsze śledzenie

Korzystanie z robota indeksującego lub robota sieciowego jest niezbędne przy wykonywaniu SEO na stronie, a obecnie Screaming Frog stało się ulubionym narzędziem śledzenia dla większości specjalistów SEO, ponieważ umożliwia bezpłatne śledzenie pełen małych stron internetowych do 500 adresów URL iw wersji płatnej jest w stanie śledzić największe witryny w Internecie (oczywiście, jeśli pamięć komputera obsługuje ciebie).

W tym drugim przypadku konieczne jest prawidłowe skonfigurowanie śledzenia, dla którego Screaming Frog oferuje kilka możliwości konfiguracji, aby dostosować się do naszych potrzeb, biorąc pod uwagę, że wszystko, co wskazano poniżej, jest przeznaczone do użycia w trybie pająka .

Konfiguracja

Przed rozpoczęciem indeksowania konieczne jest dostosowanie robota, aby uzyskać pożądane adresy URL, i chociaż konfiguracja nie jest zbyt skomplikowana, nie zawsze jest jasne, kiedy oznaczyć każdą dostępną opcję, więc oto główne z nich:

Sprawdź linki zewnętrzne : Wskazuje, czy program powinien sprawdzać linki zewnętrzne (do innej domeny), które znajduje w swoim śledzeniu. Nie spowoduje to, że linki znalezione na tych stronach będą śledzone i są szczególnie przydatne podczas wykrywania uszkodzonych linków zewnętrznych.

Sprawdź łącza poza folderem : jeśli chcesz sprawdzić tylko adresy URL w katalogu, upewnij się, że ta opcja jest odznaczona.
Przeszukaj wszystkie poddomeny : jeśli witryna, którą musisz zaindeksować, ma kilka subdomen i musisz je wszystkie śledzić, powinieneś zaznaczyć tę opcję.
Crawl canonicals : Ta opcja jest bardzo przydatna, jeśli kanoniczne adresy URL sieci nie są połączone bezpośrednio, ponieważ upewniamy się, że Screaming Frog będzie również śledzić kanoniczne adresy URL i będziemy mogli sprawdzić, czy mają jakieś problemy z SEO.
Ignoruj robots.txt : dzięki tej opcji możemy zaindeksować sieć, postępując zgodnie z zasadami pliku robots.txt, aby to zrobić, ponieważ wyszukiwarki zrobiłyby lub przeszukały wszystkie adresy URL, nawet te, które nie indeksowałyby wyszukiwarek.
Zezwalaj na pliki cookie : jeśli sieć wymaga, aby przeglądarka użytkownika akceptowała pliki cookie , musisz włączyć tę opcję, aby wykonać śledzenie.
Zażądaj uwierzytelnienia . Ta opcja jest konieczna tylko wtedy, gdy zamierzamy zaindeksować sieć, która żąda na niektórych stronach uwierzytelnienia użytkownika przez http. Jeśli zaznaczymy tę opcję i strona internetowa zażąda takiego uwierzytelnienia, Screaming Frog pokaże nam wyskakujące okienko, abyśmy mogli umieścić użytkownika i hasło niezbędne do kontynuowania śledzenia.
Zawsze stosuj przekierowania . Moim zdaniem zawsze powinno się to sprawdzać, ponieważ jeśli tak nie jest, Krzyk zatrzyma się, gdy dojdzie do przekierowania i będzie kontynuował analizę pozostałych stron. Dla mnie ważne jest, aby wiedzieć, gdzie wskazuje przekierowanie, więc nie rozumiem, dlaczego ta funkcja powinna być wyłączona.
Szanuj noindex . Aby przeprowadzić wyszukiwanie tylko dla stron, które będą indeksować wyszukiwarki, ta funkcja musi zostać aktywowana, co spowoduje, że Screaming Frog nie uwzględni w śledzeniu stron zawierających roboty z metatagami o wartości „noindex”.
Szanuj Canonical . Podobnie jak w przypadku poprzedniej opcji, powoduje to, że Krzyki zachowują się tak, jakby wyszukiwarka działała w kategoriach kanonicznych etykiet, więc pokazywałyby tylko w śledzeniu kanoniczne adresy URL adresów zawierających ten tag.

Podobnie jak w przypadku poprzedniej opcji, powoduje to, że Krzyki zachowują się tak, jakby wyszukiwarka działała w kategoriach kanonicznych etykiet, więc pokazywałyby tylko w śledzeniu kanoniczne adresy URL adresów zawierających ten tag

Używanie wyrażeń regularnych

Być może funkcjonalność najbardziej przydatnego narzędzia do śledzenia witryn z milionami adresów URL, ale najbardziej skomplikowana w użyciu, jeśli nie używa się wyrażeń regularnych. Sekcje, w których możemy wprowadzić nasze wyrażenia regularne, znajdują się w menu „Dołącz” i „Wyklucz” w „Konfiguracji”.

W tym miejscu możemy łatwo oddzielić wyrażenia regularne od adresów URL w indeksowaniu lub wykluczyć je, co byłoby równoznaczne z powiedzeniem „Uwzględnij / wyklucz wszystkie adresy URL zgodne ...”.

Wskazówka: Aby Krzyknąć Żabę indeksować witrynę, gdy ta funkcja jest używana, strona główna przeszukiwania musi zawierać co najmniej jedno łącze (href) zgodne z wprowadzonym wyrażeniem regularnym.

Należy pamiętać, że Screaming Frog traktuje każdą wprowadzoną linię jako niezależne wyrażenie regularne i będzie szukał adresów URL spełniających co najmniej jedno ze wskazanych wyrażeń, więc jeśli uwzględnimy wyrażenie regularne „. *” W dowolnym wierszu opcji „Dołącz”, Screaming Frog będzie śledzić wszystkie znalezione adresy URL, spełniając je zawsze w warunkach wskazanych.

Najczęściej używane wyrażenia regularne to te, które wybierają adresy URL w określonym podkatalogu lub adresy URL, które zawierają parametr:

Regex, aby wybrać wszystkie adresy URL w katalogu:

http://domena-name.com/directory/.*

Na przykład:

https://internetrepublica.com/blog/.*

Śledziłbym wszystkie adresy URL znajdujące się w folderze / blogu internetowym Republic.

Jeśli katalog znajduje się w adresie URL i może zmieniać swoją pozycję, możemy użyć następującego wyrażenia regularnego:

. * / directory /.*

Regex, aby wybrać adresy URL zawierające parametr:

. *? parametr. *. * i parametr. *

W ten sposób otrzymujemy adresy URL z parametrem, który jest wskazywany tak, jakby znajdował się na początku ciągu parametrów adresu URL (zaczynającego się od ?, tak, jeśli znajduje się on za innymi parametrami (oddzielonymi znakiem &).

Przepisywanie adresów URL

Inną zaawansowaną funkcją Screaming Frog mniej używaną do ignorowania jej istnienia jest przepisywanie adresów URL (przepisywanie URL), co pozwala nam zmieniać adresy URL, które Screaming Frog pokaże na swoich aukcjach. Ta funkcja jest szczególnie przydatna, gdy chcemy ręcznie utworzyć sitemap.xml.

W ramach tej funkcji wyróżnia się prostotą „Usuń parametry”, która pozwala nam bezpośrednio wskazać nazwę parametrów, których nie chcemy wyświetlać w naszych adresach URL, a Screaming Frog usunie je bezpośrednio z listy, oba parametry w tak, jak jej wartość.

Parametry, które zwykle są eliminowane, to zazwyczaj śledzenie partnerów, analityka internetowa lub sesje.

Druga opcja, Regex Replacement, jest najpotężniejsza ze wszystkich, ponieważ zastępuje wyrażenia regularne w uproszczony sposób. Z jednej strony musimy uwzględnić wyrażenie, które ma zostać wykryte, az drugiej strony wartość, o którą zostanie zastąpione:

Prostym przykładem tego, co możemy zrobić z tą funkcjonalnością, nawet bez używania wyrażeń regularnych, jest zmiana wszystkich adresów URL znajdujących się w protokole HTTP wyświetlanych na liście jako HTTPS:

Regex: http: // Zastąp: https: //

Lub zmień domenę .com przez .com.es:

Regex: .com Zastąp: .com.es

Skuteczniejsze śledzenie

Z tym wszystkim znacznie łatwiej jest wykonać wydajne śledzenie, ponieważ nie zapominamy, że intensywne używanie Screaming Frog przeciąża serwery, więc musimy skonfigurować je podczas każdego skanowania, aby uzyskać tylko te adresy URL, których potrzebujemy i nie zawsze wykonują pełne skanowanie sieć

Następujące dwie karty zmieniają zawartość poniżej.

Szkolenie informatyka, zanim zostałam programistą. Zarządzam działami marketingu internetowego i analityki wyszukiwania w Internet Republic. Pozwolić się uwieść R i Big Data.

Zaczynającego się od ?

Интернет-магазин SHOP-MODA. Мужская и женская обувь, сумки и аксессуары

Zaawansowana konfiguracja i RegEx dla Screaming Frog

Konfiguracja

Używanie wyrażeń regularnych

Przepisywanie adresów URL

Skuteczniejsze śledzenie