Spider i connector

Spider

Spider to proces, który regularnie przegląda strony internetowe w poszukiwaniu informacji stanowiących dane wejściowe do systemu. Zadaniem spidera jest znalezienie nowych lub zmodyfikowanych treści strony, co umożliwi aktualizację danych przechowywanych w repozytorium. Odpowiednio skonfigurowany spider będzie zbierał ze stron tylko te treści, które są przydatne przy wyszukiwaniu. 

Funkcjonalność Spidera:

  • Obsługa protokołu HTTP
  • Możliwość autoryzacji (stałe cookie, login + hasło)
  • Filtr zbieranych linków
  • Limit głębokości zbierania
  • Konfigurowalna strategia odświeżania dokumentów
  • Możliwość zdefiniowania dowolnej liczby pól opisujących dokument
  • Równoczesne zasilanie wielu magazynów (UB)
  • Równoczesny zapis do magazynu oraz pliku backupowego

Przed uruchomieniem spidera należy zdefiniować strony startowe, od których ma rozpocząć przeszukiwanie oraz treść, którą chcemy zbierać, ze szczególnym wskazaniem na pola, po których ma potem być wykonywane wyszukiwanie np. tytuł, autor czy kategoria. Zebrane treści zostają dostarczone do connectora.

 

Connector

Aplikacja odpowiedzialna za pobieranie danych wejściowych ze zdefiniowanego źródła, która odpowiednio przetwarza dane i dostarcza je w ustalonym formacie do repozytorium UB (Universal Backend). Connector składa się z następujących modułów:

  • Retriever – pobiera dokumenty ze zdefiniowanego źródła
  • Validator – weryfikuje poprawność danych wejściowych
  • Converter – konwertuje dokument do docelowego formatu
  • Buffer – przechowuje dokumenty przed wysłaniem
  • Pusher – przekazuje dokumenty poza connector (do UB)
Funkcjonalności Connectora:
  • Obsługa protokołu HTTP, FTP
  • Pobieranie danych w formatach XML, RSS, Ms Office, PDF
  • Możliwość autoryzacji (login + hasło)
  • Pobieranie dokumentów z określonych przedziałów czasowych
  • Konfigurowalna strategia odświeżania dokumentów
  • Konfigurowalna strategia usuwania dokumentów
  • Możliwość zdefiniowania dowolnej liczby pól opisujących dokument
  • Równoczesne zasilanie wielu magazynów (UB)
  • Równoczesny zapis do magazynu oraz pliku backupowego