Podstawowe informacje
Co to jest NASP?
NetSprint Advanced Search Platform (NASP) to uniwersalna platforma wyszukiwawcza firmy NetSprint będąca podstawą systemu NetSprint Information Access Platform (IAP). NASP dostarcza kompleksowe, zaawansowane rozwiązania w obszarze wyszukiwania treści elektronicznych pochodzących z różnorodnych źródeł.
NASP został zaprojektowany z myślą o klientach, którzy:
- posiadają duże ilości elektronicznych danych pochodzących z różnych źródeł - zarówno zewnętrznych, jak i wewnętrznych,
- uważają, że jakość obecnie używanego systemu wyszukiwania nie spełnia ich oczekiwań,
- potrzebują systemu, który poprzez integrację wszystkich zasobów, umożliwi sprawne zarządzanie i wyszukiwanie przechowywanych treści,
- planują zwiększenie przychodów online poprzez ułatwienie dostępu użytkownikom do publikowanych treści,
- traktują pozyskiwanie stałych użytkowników jako narzędzie do budowania przewagi konkurencyjnej,
- kładą nacisk na optymalizację procesów biznesowych, poprzez zwiększenie ruchu na swoich stronach oraz usprawnienie obiegu i dotarcia do informacji wewnątrz firmy.
NASP jest rozwiązaniem umożliwiającym integrację systemów poprzez:
- zebranie i ustrukturyzowanie danych pochodzących z wielu źródeł,
- kontekstowe powiązanie przechowywanych treści,
- promowanie bardziej wartościowych treści z punktu widzenia użytkownika,
- automatyczną kategoryzację treści,
- prezentację danych w spójnej, przejrzystej formie.
NASP umożliwia optymalizację procesów biznesowych poprzez:
- przyspieszenie wyszukiwania dokumentów
- poprawę dostępności informacji
Standardowy scenariusz działania systemu wygląda następująco: pobranie danych pochodzących z różnych źródeł, magazynowanie, odpowiednie klasyfikowanie umożliwiające łatwe wyszukiwanie, oraz kontekstowa prezentacja wyników.
Moduły funkcjonalne
System NASP składa się z modułów funkcjonalnych, które umożliwiają zaawansowane wyszukiwanie zaindeksowanych dokumentów.
- Federated Search. Rozbudowana wyszukiwarka, która szybko udziela wysokiej jakości odpowiedzi na zapytanie zadane przez użytkownika. Funkcjonalność wyszukiwarki umożliwia jednoczesne otrzymanie trafnych wyników, pochodzących ze wszystkich dostępnych źródeł danych (w tym również zewnętrznych w stosunku do danych klienta np. pochodzących z Wikipedii).
- Topic Pages. Moduł przeznaczony do automatycznego generowania dynamicznych stron na zadany temat - tzw. stron tematycznych. Do zadań Topic Pages należy zebranie treści opisujących dany temat ze wszystkich dostępnych źródeł. Dzięki temu na jednej stronie wynikowej znajdą się zagregowane tematycznie dokumenty. Informacje mogą być podzielone ze względu na źródła, z jakich pochodzą. Można zaaranżować sposób prezentacji wyników na stronie. Każda kategoria tematyczna może mieć różny layout (warstwę prezentacji). W ramach danej kategorii może istnieć właściwie nieograniczona liczba tematów (topiców).
- Related Content. Zadaniem modułu treści powiązanych jest prezentacja wyników zawierających informacje powiązane kontekstowo z danym dokumentem (np. konkretnym artykułem). Informacje mogą pochodzić z różnych źródeł danych. Funkcjonalność tego modułu pozwala na zamieszczenie odnośników (linków) do dokumentów zawierających treści powiązane. Treści powiązane mogą zostać pogrupowane ze względu na typ dokumentu (np. artykuł, galeria).
Charakterysyka
-
Platforma wyszukiwawcza NetSprint charakteryzuje się wysoką wydajnością dzięki zastosowaniu zaawansowanego silnika wyszukiwawczego NetSprint Universal Search Engine (USE).
-
Cały system może działać w architekturze 32- lub 64-bitowej.
-
Struktura indeksu pozwala zaindeksować miliony dokumentów w jednej części indeksu.
-
USE posiada wbudowany mechanizm do rozpraszania indeksowania na wiele maszyn, co zapewnia wysoką skalowalność rozwiązania. Na każdej maszynie wykorzystywanych może być wiele procesorów i rdzeni jednocześnie.
-
Dzięki zastosowaniu mechanizmu indeksów przyrostowych pozwala w bardzo wydajny sposób wykonywać wszelkiego rodzaju zmiany w indeksie: dodawanie dokumentów, modyfikacje i usuwanie istniejących dokumentów.
-
Procesy indeksujące mogą obsłużyć do miliona zmian dokumentów dziennie.
-
Istnieje możliwość przyrostowego indeksowania tylko wybranych pól dokumentów, jeśli więc np. w dokumencie zawierającym wiele tekstu i datę publikacji zmieniła się tylko data, istnieje możliwość zaindeksowania przyrostowego jedynie daty, co jest znacznie szybsze od indeksowania całości dokumentu. Dzięki tym funkcjonalnością można uzyskać średnie czas między modyfikacją dokumentu w bazie danych a widocznością zmiany w indeksie na poziomie minut nawet dla dużej liczby danych (setki milionów dokumentów).
-
Wysoką wydajność wyszukiwania zapewnia użycie efektywnych algorytmów oraz możliwość obsługi zapytań przez wiele procesorów i wiele maszyn. Można optymalizować system pod kątem najkrótszego czasu odpowiedzi lub pod kątem optymalnej przepustowości.
Ponadto z punktu widzenia wydajności istotne są następujące funkcje:
-
cache wyników wyszukiwania pozwala znacznie podnieść wydajność obsługi powtarzających się zapytań,
-
odpytywanie sekwencyjne pozwala znacznie podnieść wydajność wyszukiwania jeśli w indeksie jest dużo danych, a wyniki są sortowane według prostego kryterium niezależnego od zapytania (np. po dacie). Polega ono na nie odpytywaniu od razu całego indeksu, tylko pewnej jego części, a odpytywaniu kolejnych części dopiero wtedy, gdy liczba dotychczas odebranych wyników jest mniejsza od żądanego rozmiaru strony.
Silnik wyszukiwawczy firmy NetSprint został zaprojektowany do pracy z dużą liczbą dokumentów (setki milionów dokumentów) zapewniając jednocześnie obsługę kilkuset zapytań na sekundę. Powyższe parametry w oczywisty sposób są zależne od ilości i rozmiaru przeszukiwanych dokumentów, architektury serwerów oraz od złożoności zapytań kierowanych do systemu.

