Skocz do zawartości

Jak wyodrębnić wiele adresów url ze strony www


antaba
Przejdź do rozwiązania Rozwiązane przez romek_rozen,

Rekomendowane odpowiedzi

Proszę Was o pomoc w zastosowaniu formuły w Google Sheets, za pomocą której wyodrębnię adresy analizowanej strony. - przy pomocy sitemapy (więcej niż 500 url), np. =importxml("A1;"//*[local-name()='url']/*[local-name()='loc'] " ) ta formuła Artefaktu nie zadziała. Umożliwia także szybkie wyciągnięcie tagów z sekcji head, na czym mi też zleżało. Generalnie jak mam sobie zautomatyzować pracę Może istnieje 3 sposób

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Edytowane przez antaba
Odnośnik do komentarza
Udostępnij na innych stronach

  • 2 tygodnie później...

Romanie dziękuję Ci, jednak chyba sitemapa jest za duża, wyskakuje mi błąd. Podpowiedz mi, albo inni forumowicze, a przy okazji uratujcie mi tyłek - jak wyciągnąć 70 url z kategorii, przy okazji wyciągnąć H1 (to akurat mam), jaką formułę zastosować w przypadku opisu kategorii, żeby określić długość tekstu (nie chodzi tu =DŁ(A1), np. Nie wiem jak wyciągnąć z tekstu linki wewnętrzne - formuła z webinaru Artefakt nie działa =importXML(A5;"(//a[contains(@href, 'domena.pl')]/@href)[1]"). Jeszcze raz proszą o podpowiedź jak wyciągnąć te urle - ręcznie to nie ma sensu

Odnośnik do komentarza
Udostępnij na innych stronach

  • Rozwiązanie
12 godzin temu, antaba napisał:

Romanie dziękuję Ci, jednak chyba sitemapa jest za duża, wyskakuje mi błąd. Podpowiedz mi, albo inni forumowicze, a przy okazji uratujcie mi tyłek - jak wyciągnąć 70 url z kategorii, przy okazji wyciągnąć H1 (to akurat mam), jaką formułę zastosować w przypadku opisu kategorii, żeby określić długość tekstu (nie chodzi tu =DŁ(A1), np. Nie wiem jak wyciągnąć z tekstu linki wewnętrzne - formuła z webinaru Artefakt nie działa =importXML(A5;"(//a[contains(@href, 'domena.pl')]/@href)[1]"). Jeszcze raz proszą o podpowiedź jak wyciągnąć te urle - ręcznie to nie ma sensu

 

W tej formule masz błąd. Masz wstawiony nawias przed // trzeba go usunąć.

Ogólnie ta formuła wyciągnie Ci pierwszy link, który w href ma domena.pl.

 

Poczytaj więcej o XPATH, może Ci to uprości dalsze prace. Ogólnie xPath wykorzystasz też potem np. w Screaming Frogu.

Jeżeli chcesz przeglądać strony kategorii to potrzebujesz jakiegoś crawlera albo programu, który kliknie na kolejną stronę na stronach kategorii postów.

 

Żeby wyciągnąć URL możesz kombinować w postaci:

  • Pobrania wszystkich URL postów i wyciągnięcia nazwy kategorii po xpath (moim zdaniem bez sensu)
  • Jeżeli CMS ma bazę danych to przy pomocy mysql wyciągniesz sobie wszystkie posty danej kategorii i ich adresy też, wyciągniesz też w ten sposób opisy kategorii.
  • Zrób crawl przy pomocy Screaming Frog i korzystając z opcji Extraction wyciągnij to co potrzebujesz ze stron kategorii. W Screaming Frog (SC) możesz definiować typy stron i zapytania xpath. Zapytania xpath możesz sprawdzić w google sheets albo w jakimś programie po wyguglaniu "xpath test"

Jeżeli chcesz pobrać długość opisu kategorii to znowu z wykorzystaniem xpath znajdujesz tekst kategorii i sprawdzasz jego długość.

Możesz też podać wszystkim zebranym tutaj URL i na pewno ktoś Ci pomoże.

Może napisz do ludzi Artefaktu. Bo z tego co widzę to wszystko opierasz na ich webinarze, na którym mogły być błędy (na podstawie tego co mówisz).

 

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności