Skocz do zawartości

Pobieranie zawartości strony


ghacek

Rekomendowane odpowiedzi

Jeśli mamy strukturę linków typu https://www.forum.optymalizacja.com/index.p...owtopic=$1

To mogę b. łatwo pobrać treści ze strony tym kodem:

for ($s1=0; $s1 < 60000; $s1++) {
$strona = 'https://www.forum.optymalizacja.com/index.php?showtopic='.$s1;
$pobierz = file_get_contents($strona);

//tutaj jakieś operacje na treści
}

Co jednak zrobić kiedy nie ma takiej struktury linków i mamy strukturę linków statycznych jak przeskanować całą witrynę i wszystkie jej podstrony? Można to rozwiązać przebijając się po linkach wewnętrznych tylko nie wiem jak to ująć w ramy kodu, jakbyście mogli mnie naprowadzić jakąś funkcją (jeśli taka jest)

Programista aplikacji webowych i pozycjoner w Edukey - Szkolenia komputerowe | programowanie w VBA

Polecam dobry i tani hosting w firmie masternet

logo-edukey-twojaeuropa.png

Odnośnik do komentarza
Udostępnij na innych stronach

Musisz pobrać URLe z kodu HTML - za pomocą wyrażeń regularnych - funkcja preg_match_all().

Hosting już od 39 zł brutto/rok! Sprawdź nasze możliwości: brak limitu domen, subdomen, kont FTP, baz danych MySQL, wiele wersji PHP, dostęp do konta przez SSH, automatyczna instalacja WordPress, kompatybilność z frameworkami Symfony/Laravel, blokada krajów, integracja z CloudFlare i wiele innych.

Odnośnik do komentarza
Udostępnij na innych stronach

Tylko, że jeśli uruchomisz taki kod jak podajesz na bardzo wielu hostingach dostaniesz bana za przeciążenie pasma procesora na jednego usera

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Odpowiednie wyrażenie regularne w zależności od tego co chcesz wyciągnąć...

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

jeśli można coś dodać, to mi do głowy przychodzą 2 rozwiązania, jedno to rekurencja, czyli wywołujesz funkcję wg zadanego adresu i zwraca Ci adresy www i potem po tych adresach znowu wywołujesz tę samą funkcję i wystarczy tylko określić stopień zagnieżdżenia i odstępy czasowe, żeby nie zajeździć procesora i teoretycznie powinno działać, praktycznie czort wie jak wyjdzie z wydajnością :) bo nie robiłem tego jeszcze, ale skoro masz problem na dzień dobry z wyrażeniami, to radziłbym Ci skorzystać z jakiegoś darmowego generatora sitemapy, który za Ciebie przeszuka wskazany serwer, większość darmowych ma limity linków, ale kilka-kilkadziesiąt tysi powinno Ci znaleźć i za free, a mając już mapę w xml, to chyba nie problem potem z niej wyciągać co się chce. A jeśli serwer jest Twój, to najprościej pobrać dane prosto z bazy, bo po co tracić czas na majstrowanie bota, skoro można znacznie prościej.

Moje staruszki po liftingu, darmowe, zgodne z wytycznymi G, responsywne!

Katalog stron firm Zorb -/- Katalog sklepów Świat Zakupów -/- Katalog firm ProBi. PS Nie łatwo się dodać. ;)

A jeśli lubisz technologię, zwłaszcza bezzałogowce, to w wolnej chwili zajrzyj na InfoDron - info.dron.pl

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności