Skocz do zawartości

zliczanie linków wychodzących


Mich@ł

Rekomendowane odpowiedzi

Poszukuje skryptu zliczania linków wychodzących z X strony. W sumie mam pewną koncepcje aby samemu coś takiego napisać tylko mam pewne problemy m.in. jak wykluczyć linki które znajdują się w kodzie js?

Moja ogólna koncepcja jest taka:

Przy pomocy wyrażeń regularnych wyszukuje wszystkie linki w 3 wariantach:

1. href='(*+)'

2. href="(*+)"

3. href=(*+)

Z linków układam tablice i z tej tablicy usuwam wszystkie linki wewnętrzne.

Problemem jest jedynie jak pomijać kod js. Może macie jakiś pomysł ew znacie jakieś gotowe skrypty :)?

Michał Kryński
Zapraszam na moje forum akwarystyczne  ;-) 

 

Odnośnik do komentarza
Udostępnij na innych stronach

Pomysły - parsowanie kodu na ogólnych zasadach za pomocą funkcji wyrażeń regularnych.

Zresztą w PHP to czysta przyjemność :)

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Mion, trochę zbyt ogólny ten pomysł, ponieważ tyle to ja wiem że należy użyć wyrażeń regularnych :)

W sumie mam już pewną koncepcje jednak będzie to strasznie nie optymalne :puknijsie:

Koncepcja 1:

1. wyciągam z treści wszystkie linki (3 rodzaje podane powyżej)

2. wyciągam z treści wszystkie kody js i w nich szukam linków

3. usuwam z 1 części linki które pojawiły się w 2 sprawdzaniu.

No chyba że któraś funkcja wyrażeń regularnych pozwala na pomijanie kodu który jest w określonym przedziale (znacznikach) ? WEtedy by to kiż całkowicie ułatwiło sprawę :P

Michał Kryński
Zapraszam na moje forum akwarystyczne  ;-) 

 

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli wiesz to po co zadajesz takie pytania - nie na na innego sposobu niż parsowanie kodu tworzącego stronę, ewentualnie kodów javascript o ile takowe mogą zawierać definicje linków.

@funkcja wyrażeń regularnych pozwala na pomijanie kodu który jest w określonym przedziale

Jakie ciągi znaków będą dopasowywane - zwracane zależy od tego jakie wyrażenia regularne ułożysz. Funkcje wyrażeń regularnych nie nakładają z góry ustalonych ograniczeń poza tym nie koniecznie wszystko musi być realizowane jednym wyrażeniem, ale np kilkoma operującymi już na bardziej zawężonych/mniejszych ciągach znaków.

Jaki może być algorytm działania:

- pobranie wszystkich linków / urli z kodu HTML tworzącego stronę;

- pobranie wszystkich linków / urli z kodu javascrity wchodzącego w skład stronę;

- usunięciu duplikatów, lub ich zgrupowanie;

- określenie które są wychodzące, a które wewnętrzne na podstawie składni url'a;

----

W kwestii javascript to źródło nie ma znaczenia, bo definicja/składnia klikalnego linku zawsze jest taka sama : <a href="URL">Anchor</a> chyba, że stosowane są jakieś wysokiej klasy kombinacje mające na celu ukrycie definicji linka np rozbicie na składowe do zmiennych .

<script type="text/javascript">

var def1 = '<a';

var def2 = 'href="';

var def3 = '">';

// itd

</script>

:)

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel
Komory normobaryczne - normobaria.tech Wykonawca montażu i instalacji komory normobarii

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności