Skocz do zawartości

szukam narzędzia do deduplikacji lini w pliku


Eman

Rekomendowane odpowiedzi

W założeniach plik wejściowy może mieć rozmiar kilkaset MB

kodowanie UTF-8 i znaki mogą być w cyrylicy i łacince.

Potrzebuję usunąć duplikaty znalazłem coś takiego ale nie działa.

#!/usr/bin/perl
open (file, "<listadomen.txt");
while(<file>)
{ push @tab, $_; }
close(file);
@tab=grep !$x{$_}++,  tab; 

print  @tab;

Na perl'u nie znam się więc jak ktoś by podpowiedział gdzie jest błąd lub podał inny program.

Tylko program ma być wydajny.

Widziałem wydajny program ale był tylko do deduplikacji linii z adresami email (w linii musiał być znak @ )

a ja chcę żeby deduplikował wszystko.

Odnośnik do komentarza
Udostępnij na innych stronach

Zarchiwizowany

Ten temat przebywa obecnie w archiwum. Dodawanie nowych odpowiedzi zostało zablokowane.

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności