Розширена конфігурація і RegEx для Screaming Frog

Конфігурація
Використання регулярних виразів
Переписування URL-адрес
Більш ефективне відстеження

Використання сканера або веб- сканера має важливе значення при виконанні SEO Onpage і, в даний час, Screaming Frog стала улюбленим інструментом відстеження для більшості професіоналів SEO, оскільки вона дозволяє безкоштовно відстежувати Повна малих сайтів до 500 URL-адрес і в платній версії здатна відстежувати найбільші сайти в Інтернеті (якщо пам'ять комп'ютера підтримує вас, звичайно).

У цьому другому випадку важливо правильно налаштувати відстеження, для якого Screaming Frog пропонує декілька конфігураційних можливостей для адаптації до наших потреб, беручи до уваги, що все, що вказано нижче, призначено для використання в режимі павука .

Конфігурація

Перед початком сканування необхідно налаштувати сканер, щоб отримати URL-адреси, які ми хочемо, і, хоча конфігурація не дуже складна, не завжди зрозуміло, коли потрібно позначити кожну з доступних опцій, отже основні:

Перевірка зовнішніх посилань : вказує, чи програма повинна перевіряти зовнішні посилання (на інший домен), які вони знаходять у своєму відстеженні. Це не призведе до відстеження посилань на цих сторінках і особливо корисно при виявленні порушених зовнішніх посилань.

Перевірте посилання за межами папки : Якщо ви хочете перевірити лише URL-адреси в каталозі, переконайтеся, що цей пункт не позначено.
Сканування всіх субдоменів : якщо веб-сайт, який потрібно сканувати, має декілька субдоменів, і ви повинні відстежувати їх усі, ви повинні позначити цю опцію.
Сканування канонічних : Ця опція дуже корисна, якщо канонічні URL-адреси в Інтернеті не пов'язані безпосередньо, оскільки ми впевнені, що Screaming Frog також відстежуватиме канонічні URL-адреси, і ми зможемо перевірити, чи є у них які-небудь SEO проблеми.
Ігнорувати файл robots.txt : за допомогою цього пункту можна сканувати веб-сторінку, дотримуючись правил файлу robots.txt, щоб зробити це, оскільки пошукові системи виконують або сканують усі URL-адреси, навіть ті, які не будуть сканувати пошукові системи.
Дозволити файли cookie : якщо для веб-переглядача потрібно, щоб веб-переглядач користувача забороняв, потрібно активувати цей параметр для здійснення відстеження.
Запит аутентифікації . Цей параметр необхідний лише тоді, коли ми збираємося сканувати веб-сторінку, яка запитує в деяких своїх сторінках аутентифікацію користувача за допомогою http. Якщо позначити цей параметр, і веб-запит про таку аутентифікацію, Screaming Frog покаже нам спливаюче вікно, щоб ми могли поставити користувача та пароль, необхідні для продовження відстеження.
Завжди слідкуйте за переадресаціями . На мою думку, слід завжди перевіряти, тому що, якщо це не так, то Screaming зупиниться, коли він досягне перенаправлення, і продовжить аналізувати інші сторінки. Для мене дуже важливо знати, де знаходиться перенаправлення, тому я не розумію, чому цю функцію слід деактивувати.
Поважайте noindex . Щоб виконати пошук тільки для сторінок, які будуть індексувати пошукові системи, ця функція повинна бути активована, що змусить Screaming Frog не включати в своє відстеження сторінки, що містять мета-теги роботів зі значенням "noindex".
Поважайте Canonical . Як і в попередньому варіанті, це призводить до того, що Screaming веде себе так, як пошукова система буде робити з точки зору канонічних міток, тому вона відображатиметься лише у відстеженні канонічних URL-адрес URL-адрес, що містять зазначений тег.

Як і в попередньому варіанті, це призводить до того, що Screaming веде себе так, як пошукова система буде робити з точки зору канонічних міток, тому вона відображатиметься лише у відстеженні канонічних URL-адрес URL-адрес, що містять зазначений тег

Використання регулярних виразів

Можливо, функціональність найбільш корисного інструменту, коли мова йде про відстеження веб-сайтів з мільйонами URL, але найскладніша у використанні, якщо ви не використовуєте регулярні вирази. Розділи, де ми можемо вводити наші регулярні вирази, знаходяться в меню "Включити" і "Виключити" в розділі "Конфігурація".

Тут ми можемо легко відокремити регулярні вирази для включення URL-адрес у сканування або виключити їх, що буде подібно до висловлювання "Включити / виключити всі URL-адреси, які відповідають ...".

Порада. Для того, щоб Screaming Frog сканувала веб-сайт, коли використовується ця функціональність, домашня сторінка сканера повинна містити принаймні одне посилання (href), яке відповідає введеному регулярному виразу.

Слід мати на увазі, що Screaming Frog трактує кожен рядок, який ми вводимо як незалежний регулярний вираз, і буде шукати URL, які відповідають щонайменше одному з вказаних виразів, так що якщо ми включимо регулярний вираз ". *" У будь-який рядок опції "Include", Screaming Frog буде відстежувати всі URL-адреси, які він знаходить при виконанні цих умов завжди вказується.

Найбільш використовуваними регулярними виразами є ті, які вибирають URL-адреси в певному підкаталозі або URL-адреси, які містять параметр:

Regex для вибору всіх URL-адрес у каталозі:

http://domain-name.com/directory/.*

Наприклад:

https://internetrepublica.com/blog/.*

Я б відстежував усі URL-адреси, які були в теці / блозі республіки.

Якщо каталог знаходиться всередині URL і він може змінювати його позицію, ми можемо використовувати наступний регулярний вираз:

. * / каталог /.*

Regex для вибору URL-адрес, які містять параметр:

. *? Параметр. *. * & параметр. *

Таким чином, ми отримуємо URL-адреси з параметром, який вказується настільки, наскільки він розташований на початку рядка параметрів URL (який починається з ?, As, якщо він стоїть за іншими параметрами (розділеними &).

Переписування URL-адрес

Ще однією з просунутих функцій Screaming Frog, менш використовуваних для незнання свого існування, є переписати URL-адреси (URL Rewriting), що дозволяє нам змінювати URL-адреси, які Screaming Frog покаже у своїх списках. Ця функція особливо корисна, коли ми хочемо зробити sitemap.xml вручну.

В межах цієї функції він виділяється своєю простотою "Видалити параметри", що дозволяє нам безпосередньо вказувати назву параметрів, які ми не хочемо відображати в наших URL, а Screaming Frog видалить їх безпосередньо зі свого списку, як параметр так як його значення.

В межах цієї функції він виділяється своєю простотою Видалити параметри, що дозволяє нам безпосередньо вказувати назву параметрів, які ми не хочемо відображати в наших URL, а Screaming Frog видалить їх безпосередньо зі свого списку, як параметр так як його значення

Параметри, які зазвичай усуваються, зазвичай є тими, що стосуються відстеження партнерських відносин, веб-аналітики або сеансів.

Другий варіант - Regex Replacement - найпотужніший з усіх, оскільки він спрощує замін через регулярні вирази. З одного боку, ми повинні включити вираз для виявлення, а з іншого - значення, за яким його буде замінено:

Простий приклад того, що ми можемо зробити з цією функціональністю, навіть не використовуючи регулярні вирази, це змінити всі URL-адреси, які знаходяться в протоколі HTTP, у списку як HTTPS:

Regex: http: // Замінити: https: //

Або змініть домен .com за допомогою .com.es:

Regex: .com Замінити: .com.es

Більш ефективне відстеження

При цьому набагато простіше виконувати ефективне відстеження, оскільки ми не забуваємо, що інтенсивне використання Screaming Frog перевантажує сервери, тому ми повинні налаштувати його в кожному скануванні, щоб отримати лише потрібні нам URL-адреси і не завжди виконувати повне сканування в Інтернеті

Наступні дві вкладки змінюють вміст нижче.

Навчання комп'ютерним інженерам, перш ніж я був веб-програмістом. Я керую відділами інтернет-маркетингу та пошуку аналітики Internet Republic. Дозвольте собі спокусити R та Big Data.

Кий починається з ?

Интернет-магазин SHOP-MODA. Мужская и женская обувь, сумки и аксессуары

Розширена конфігурація і RegEx для крикучої жаби

Конфігурація

Використання регулярних виразів

Переписування URL-адрес

Більш ефективне відстеження