Skocz do zawartości

Skan dużej witryny


takieSEO

Rekomendowane odpowiedzi

Hej, może dla niektórych to łatwe pytanie, ale ja niestety nie wiem. Jak zrobić skan dużej witryny (ponad 1,5mln adresów URL) w Screaming Frogu? Chodzi mi o to, jak ustawić, żeby skanowało pojedyncze elementy dla mnie ważne? I żeby w miarę szybko to przebiegło?

Czat GPT podpowiada, że:
 

  1. Limit głębokości skanowania: Ustaw maksymalną głębokość skanowania na 5 lub 6, aby skoncentrować się na najważniejszych częściach witryny, np. "Spider" > "Configuration" > "Limits" > "Max Depth" = 5 lub 6.

  2. Limit czasu na żądanie: Ustaw limit czasu na żądanie na 5-10 sekund, aby uniknąć zatrzymywania się na długotrwałych żądaniach, np. "Configuration" > "Spider" > "Speed" > "Connection Timeout" = 5-10 sekund.

  3. Wyłącz zbędne filtry: Wyłącz filtry, których aktualnie nie potrzebujesz, np. filtry dotyczące obrazów czy plików CSS, jeśli nie są one istotne dla Twojego celu skanowania.

  4. Maksymalna ilość wątków: Zwiększ maksymalną ilość wątków, aby przyspieszyć proces skanowania, np. "Configuration" > "Speed" > "Max Threads" = 50 lub więcej (dopasuj do możliwości Twojego systemu).

  5. Ograniczenie typów URL: Jeśli niektóre typy URL nie są istotne dla Twojego celu skanowania, wyklucz je, np. "Configuration" > "Spider" > "Advanced" > "Exclude" (dodaj odpowiednie wykluczenia).

    Jednak jak tak robię i zaznaczam w konfiguracji, żeby tylko ważne dla mnie opcje skanowało, to skanuje jakby za mało. 

    W konfiguracji dostępne są opcje:
    - Images; CSS; JavaScript; SWF; Internal Hyperlinks; External Links; Canonicals; Pagination; Hreflang; AMP; Meta Refresh; Iframes; Check Links outside od start folder; crawl outside of start folder 

    To którą z tych opcji powinienem zaznaczyć, jeśli chcę sprawdzić takie podstawowe kwestie on-site: Page Title, Meta Description, Canonicals; Hreflang; Hx; kody odpowiedzi HTTP; zdjęcia (waga; alty). Umiałby ktoś poradzić?

Odnośnik do komentarza
Udostępnij na innych stronach

Albo czy da się skanować jakoś tylko części witryny? Części tzn. np. jedną zakładkę? Czy to da się np. za pomocą wykluczeń? Takiej opcji uwzględnij lub wyklucz? Proszę o porady, jak sobie radzicie przy skanowaniu tak dużych domen, mam to na jutro zrobić, a nie wiem, jak się do tego zabrać, żeby nie skanowało mi kilka dni 

Odnośnik do komentarza
Udostępnij na innych stronach

Od tego trzeba zacząć, że jeśli to nie jest twoja witryna na serwerze dedykowanym możesz dostać blokadę na IP.

  • Like 1

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Jak masz przeczucie ze blokują ci Żabę to spróbuj dostać się do mapy witryny i zaimportować do programu gotowe pliki.

https://www.screamingfrog.co.uk/seo-spider/tutorials/how-to-audit-xml-sitemaps/

Jak nie wszystko program ci sprawdzi to masz pewność ze twój IP jest blokowany.

𝓒𝓸𝓰𝓲𝓽𝓸, 𝓪𝓻𝓻𝓲𝓹𝓲𝓸 𝓭𝓲𝓮𝓶, 𝓿𝓲𝓿𝓸, 𝓬𝓻𝓮𝓭𝓸, 𝓮𝓽 𝓼𝓹𝓮𝓻𝓸, 𝓱𝓾𝓶𝓪𝓷𝓲𝓽𝓪𝓽𝓮𝓶 𝓷𝓸𝓷 𝓭𝓮𝓼𝓽𝓻𝓾𝓬𝓽.

Odnośnik do komentarza
Udostępnij na innych stronach

To nie jest kwestia "zgaduj zgaduli", ale odczytania statusu odpowiedzi HTTP.
Przy blokadach będzie to najprawdopodobniej 403 forbidden.

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Skan można zrobić z wykorzystaniem proxy, lub odpytywac co minute albo SF uruchomić w chmurze i wtedy za 2-3 tygodnie zbierze dane :D

 

opcja to zbierasz reprezentatywną rpóbkę i analizujesz a potem ręcznie doklepujesz/weryfikujesz elementy podejrzane. Ja tak robię rpzy dużych serwisach.

 

opcja to Octopus Jet i 10 tys euro i możzna lepcieć :D

Agencja marketingowa Semgence istnieje na rynku od 2018 i odpowiada za prowadzenie działań SEO dla wielu firm małych i dużych. Prowadzimy też kampanie Google Ads - niedawno zostaliśmy sie Partnerem Google spełniając odpowiednie kryteria. Betapoint

 

 

Odnośnik do komentarza
Udostępnij na innych stronach

Ale jaki jest sens pobierania tych adresów, co ma to na celu ?

  • Like 1

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

W dniu 17.04.2024 o 16:34, takieSEO napisał(a):

Jak zrobić skan dużej witryny (ponad 1,5mln adresów URL) w Screaming Frogu?

Przy tego typu serwisie dane pochodzą z baz danych, więc zamiast robić jakieś karkołomne skany żądaniami HTTP wystarczy przeanalizować dane w bazie na podstawie której podstrony są tworzone.   Jeśli nie jest to Twoja witryna, to NIE masz uprawnień do ich analizy 🫡

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Godzinę temu, takieSEO napisał(a):

Więc coś radzisz w takim przypadku, jak z tego zadania wybrnąć?

1) Nie rzucać się z motyką na słońce;

2) Napisać lub zamówić stosowne oprogramowanie do realizacji tego typu zadania  ;

3) Odmówić wykonania tego zdana z powodu braku możliwości technicznych lub umiejętności do jego realizacji....

 

>

  • Like 1

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Audyt techniczny serwisu bez dostępu do GSC nie jest audytem technicznym - jest zgadywanką.

Agencja marketingowa Semgence istnieje na rynku od 2018 i odpowiada za prowadzenie działań SEO dla wielu firm małych i dużych. Prowadzimy też kampanie Google Ads - niedawno zostaliśmy sie Partnerem Google spełniając odpowiednie kryteria. Betapoint

 

 

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności