[JAK] Masowe pobieranie URL'i z określonego DIV'a

Darq · 11 Października 2012

Witam. Zadanie jest następujące. W kodzie strony znajduje się pewien określony DIV, który wygląda tak:

<div class="nazwa-diva"><span>Zobacz TO:</span> <a href="https://www.przykladowadomena.pl"><b>Dowolny anchor</b></a></div>

Celem jest pobranie URL'a z tego DIVa lub ewentualnie pobranie całego DIVa żeby można było sobie później z tekstu powyciągać URL'e.

Takich witryn jest kilka tysięcy i w każdej z nich ten DIV ma tę samą nazwę.

W jaki sposób zrobić to jak najprościej?

OceanFire · 11 Października 2012

Moge Ci to napisac.

https://www.forum.optymalizacja.com/topic/162110-wykonam-nietypowa-usluge-%3B/#entry1117680

20 - 30 zl jezeli schemat bedzie prosty.

GG: 8186178

A jezeli chcesz to zrobic sam to cURL + preg_match

THI · 11 Października 2012

Mogę polecić Ci język programowania PHP

1. Tablica z urlami do stron

2. Pętla

2.1. file_get_contents /ewentualnie cURL, fopen

2.2. preg_match_all

2.3. dorzucanie url do tablicy

A dokładniej to jest 4-5 linijek kodu.

Pozdrawiam

artur_waw · 12 Października 2012

Można też wykorzystać XPATH. Tutaj na szybko sprawdzi się Python + Selenieum, wrzucasz linki do pliku, odpalasz i otrzymujesz URL w pliku wynikowym.

okazwłoka · 12 Października 2012

Wpisz w google "php get div id content" i masz.

Lexy · 12 Października 2012

A może https://techformator.pl/xpath-scraper-basicextended-xscraper/ ?

zoreander · 12 Października 2012

W jaki sposób zrobić to jak najprościej?

Najprościej jest dać ogłoszenie w dziale zlecenia na napisanie takiego skryptu/programu osobie która potrafi to zrobić.

Prostsze nie będzie pisanie samemu wielowątkowego skryptu nawet jeśli zrobimy to w pythonie.

golum · 12 Października 2012

Zainteresuj się dodatkiem do Chrome XPath Scraper

Przydatna komenda do wyciągania takich linków to:

//div/a/@href - oczywiście do rozbudowania w przypadku określonych stron i ich struktury (...z googla przez site: możesz wyciągnąć linki przy pomocy - //div/div/ol/li/div/h3[@class=r]/a/@href ...)

Trotyl · 12 Października 2012

$adresy=file('adresy.txt');
foreach($adresy as $adres)
{
preg_match('/<div class="nazwa-diva"><span>Zobacz TO:<\/span> <a href="([^"]*)"><b>Dowolny anchor<\/b><\/a><\/div>/is',file_get_contents(rtrim($adres)),$wynik);
echo $wynik[1];
}

jakoś tak, nie sprawdzałem

E: muszę z Mionem ustalić ile mogę linijek kodu publikować za darmo, bo mu w biznes wchodzę

Mion · 13 Października 2012

@E: muszę z Mionem ustalić ile mogę linijek kodu publikować za darmo, bo mu w biznes wchodzę

Ha,ha mnie takie zlecenia - pierdoły nie interesują.

rokko · 18 Października 2012

Wyrażenia regularne są o wiele bardziej zasobożerne. Przy takich rzeczach tj. do wyciągania danych ze stron stosuje się powszechnie xpath i taką też opcję Tobie proponuję. W XScraper lub Scraper for Chrome bez większego problemu wyciągniesz sobie co tylko chcesz.

Zaloguj się

[JAK] Masowe pobieranie URL'i z określonego DIV'a

Rekomendowane odpowiedzi

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Odnośnik do komentarza

Udostępnij na innych stronach

Zarchiwizowany

Ostatnio przeglądający 0 użytkowników

Polecamy

Współpracują z nami

Powiadomienie o plikach cookie