RegEx і пашыраныя налады для крычала Frog

  1. канфігурацыя
  2. Выкарыстанне рэгулярных выразаў
  3. Перапісванне URL - адрасоў
  4. Больш эфектыўнае адсочванне

Выкарыстанне гусенічных або гусенічныя сайтаў мае важнае значэнне пры выкананні SEO OnPage і ў цяперашні час які крычыць Frog стаў інструментам выбару адсочвання для большасці прафесіяналаў SEO , таму што гэта дазваляе бясплатна адсочваць версіі поўна невялікіх палотнаў да 500 URL і яго платная версія мае магчымасць адсочваць самыя буйныя сайты ў Інтэрнэце (калі памяць кампутара будзе трымаць, да).

У апошнім выпадку яна мае жыццёва важнае значэнне для правільнай налады трасіроўкі для таго, што Якія крычаць Frog прапануе некалькі варыянтаў канфігурацыі , каб задаволіць нашы патрэбы, улічваючы ўсе , што варта для выкарыстання ў рэжыме павука.

канфігурацыя

Перад тым, як пачаць сканаванне, неабходна наладзіць трэкер, каб атрымаць URL, якія мы хочам, і, хоць і не вельмі складанай канфігурацыі, якія не заўсёды ясна, калі пазнака кожнай опцыі даступныя, так вось асноўныя з іх:

Праверце знешнія спасылкі: Паказвае , ці павінна праграма правяраць знешнія спасылкі (на іншы дамен) , які ў сваім трекінг. Гэта не будзе рабіць спасылкі, знойдзеныя на гэтых старонках і асабліва карысна пры выяўленні зламаных знешніх спасылак таксама папаўзлі.

  • Праверце знешнюю тэчку спасылкі: Калі вы хочаце , каб праверыць толькі URL - адрас у каталогу, пераканайцеся , што гэтая опцыя адключаная.
  • Абыход усіх субдоменов: Калі вы адсочваеце вэб - сайт мае некалькі субдоменов і вам трэба , каб адсочваць іх усё, вы павінны быць пазначаныя гэтую опцыю.
  • Сканаванне царкоўнага ўбор: Гэтая опцыя карысная , калі кананічныя вэб - адрас не звязаны напрамую, таму што мы гарантуем , што Кідкая жаба будзе таксама адсочваць кананічныя URL - адрас і можа праверыць , калі ў іх ёсць нейкія - небудзь праблемы SEO.
  • Ігнараваць robots.txt: З дапамогай гэтай опцыі можна выбраць для сканавання Інтэрнэту , вынікаючы правілы файла robots.txt , каб зрабіць гэта так жа , як яны будуць шукаць рухавікі або адсочваць усе URL - адрас, у тым ліку тых , якія будуць адсочваць ня пошукавыя сістэмы.
  • Дазволіць кук: Калі гэты сайт патрабуе карыстальнік «s браўзэр падтрымлівае печыва, вы павінны ўключыць гэтую опцыю для адсочвання.
  • Запыт аўтэнтыфікацыі. Гэтая опцыя неабходная толькі пры сканаванні сайта, які просіць у адным з яго аўтэнтыфікацыі карыстальнікаў для HTTP-старонак. Калі мы адзначаем гэты варыянт і вэб - запыты такой аўтэнтыфікацыі, Кулака Frog будзе паказваць ўсплывальнае акно , каб змясціць карыстальнік імя і пароль , неабходнае для працягу адсочвання.
  • Заўсёды ідзіце рэдырэкт. На мой погляд, гэта заўсёды павінна быць праверана, так як у тым выпадку, калі гэта не з крыкам спыніцца, калі вы дасягне рэдырэкт і будзе працягваць аналізаваць пакінутыя старонкі. Для мяне вельмі важна ведаць, дзе паказвае рэдырэкт, так што я не разумею, чаму вы павінны адключыць гэтую функцыю.
  • Noindex павагу. Для таго, каб прасачыць толькі праіндэксаваныя старонкі, пошукавыя сістэмы павінны ўключыць гэтую функцыю, якая не будзе ўключаць у сябе Якія крычаць жабы поўзаць на вашых старонках, якія змяшчаюць робатаў мета значэнне тэга «NoIndex».
  • Паважайце Canonical. Дакладна так жа , як і ў папярэднім варыянце, гэта робіць Крычалі паводзіць сябе , як бы пошукавая сістэма, наколькі кананічныя этыкеткі тычыцца, таму толькі паказаць у сваім скануюць кананічныя URLS URLs , якія змяшчаюць гэты тэг.

Дакладна так жа , як і ў папярэднім варыянце, гэта робіць Крычалі паводзіць сябе , як бы пошукавая сістэма, наколькі кананічныя этыкеткі тычыцца, таму толькі паказаць у сваім скануюць кананічныя URLS URLs , якія змяшчаюць гэты тэг

Выкарыстанне рэгулярных выразаў

Мабыць, найбольш карысная функцыянальнасць пры удасканаленьні вэб-сайтаў з мільёнамі URL-адрасоў інструмента, але найбольш цяжка выкарыстоўваць, калі вы не ездзіце з рэгулярнымі выразамі. Пункты, дзе мы можам ўвесці нашы рэгулярныя выразы з'яўляюцца меню «Уключыць» і «Выключыць» у раздзеле «Канфігурацыя».

Тут мы можам лёгка асобныя рэгулярныя выразы, каб уключыць URL-адрасы ў сачэнні або выключаюць, што б, як кажуць «ўключае / не ўключае ўсе URL-адрасы, якія адказваюць ...».

Рада: Кулака Frog поўзаць вэб, калі гэтая функцыя выкарыстоўваюцца, трэкінг старонкі павінен трымаць па крайняй меры адну спасылкі (HREF), які адпавядае рэгулярнаму выразу ўведзенага.

Варта адзначыць, што Якія крычаць жабы разглядае кожную лінію, ўвядзем у якасці незалежных рэгулярных выразаў і пошуку URL-адрасоў, якія адпавядаюць па меншай меры, адно з прыведзеных вышэй выразаў, так што, калі мы ўключаем рэгулярны выраз «*» У любой радку выбару «Уключыць» якія крычаць жабы поўзаць усе URL-адрасы, якія задавальняюць гэтым заўсёды знаходзіць ўмова, азначанае.

Рэгулярныя выразы выкарыстоўваюцца для некалькіх выбраных URL-адрасоў ў канкрэтным падкаталогу або URL-адрасоў, якія змяшчаюць параметр:

Regex , каб выбраць усе URL - адрасы ў межах каталога:

http://nombre-de-dominio.com/directorio/.*

напрыклад:

https://internetrepublica.com/blog/.*

Правесці трасіроўку ўсіх URL-адрасоў, якія былі ў тэчцы / блога Інтэрнэт Рэспублікі.

Калі каталог знаходзіцца ў URL і можа вар'іравацца ў сваёй пазіцыі, мы можам выкарыстоўваць наступнае рэгулярнае выраз:

. * / Каталог /.*

Regex для выбару URL - адрасоў , якія змяшчаюць параметр:

. *? Parameter. *. * І параметраў. *

Такім чынам, мы атрымліваем URL-адрас з параметрам паказваецца так жа, як калі ў пачатку радка параметраў URL (які пачынаецца з?, Як быццам гэта ззаду іншых параметраў (якія падзелены &).

Перапісванне URL - адрасоў

Яшчэ пашыраныя магчымасці Якія крычаць жабы менш выкарыстоўваецца з-за няведання іх існавання перапісаць URL (URL перапісвання), што дазваляе змяніць URL, якія паказваюць Screaming Frog ў іх спісах. Гэта функцыя асабліва карысная, калі вы хочаце зрабіць sitemap.xml ўручную.

У рамках гэтай функцыі, яна вылучаецца сваёй прастатой «Выдаліць параметры», што дазваляе нам прама паказаць імя параметраў, якія не хочуць з'яўляцца ў нашых URL-адрасах, і крычалі Frog выдаліць іх непасрэдна з спісу, як параметр ды ў якасці свайго значэння.

У рамках гэтай функцыі, яна вылучаецца сваёй прастатой «Выдаліць параметры», што дазваляе нам прама паказаць імя параметраў, якія не хочуць з'яўляцца ў нашых URL-адрасах, і крычалі Frog выдаліць іх непасрэдна з спісу, як параметр ды ў якасці свайго значэння

Параметры, як правіла, звычайна выдаляюцца з trackeo філіяла, вэб-аналітыкі ці сесій.

Другі варыянт, Regex Замена з'яўляецца самым магутным з усіх, таму што ён выконвае замену з выкарыстаннем рэгулярных выразаў у спрошчанай форме. З аднаго боку, мы павінны ўключаць у сябе выраз для выяўлення, а па-другое, значэнне, якое падстаўляецца:

Просты прыклад таго, што мы можам зрабіць з гэтай функцыянальнасцю, нават з выкарыстаннем рэгулярных выразаў, каб змяніць усе URL-адрас у пратаколе HTTP, якія з'яўляюцца ў спісе як HTTPS:

Regex: HTTP: // Замяніць: https: //

Ці змяніць дамен .com па .com.es:

Regex: заменіце .com: .com.es

Больш эфектыўнае адсочванне

Пры ўсім гэтым, гэта значна прасцей зрабіць эфектыўнае сканавання, а таксама не забываць, што інтэнсіўны Якія крычаць сервера перагрузкі Frog, таму мы ўсталёўваем у кожнай трасе, каб атрымаць толькі URL, якія нам патрэбныя, і не заўсёды выконваць поўную праверку палатно.

Наступныя дзве ўкладкі змяніць змест ніжэй. Наступныя дзве ўкладкі змяніць змест ніжэй

камп'ютэрнае навучанне інжынер, вэб-праграміст быў раней. Напісанне аддзелаў Search Marketing і інтэрнэт вэб-аналітыкі Рэспублікі. Пакінуўшы спакусіў R і вялікіх дадзеных.

Кі пачынаецца з?