Select Page

Wyszukiwanie i pobieranie informacji ze stron potrafi być bardzo uciążliwe, zwłaszcza jeśli mamy do czynienia z dużą ilością danych. Problem, z którym zgłosił się do nas klient może się wydawać prozaiczny – współpracuje z dużym dystrybutorem sprzętu RTV i chce przedstawić ofertę jego wyrobów, dostępną w swoim sklepie internetowym. Niestety – dystrybutor nie udostępni klientowi bazy produktów w formie innej, niż ta, która jest widoczna na stronie i chce uniknąć kłopotu aktualizacji oferty. Innymi słowy – klient musi samodzielnie „wyciągnąć” opisy produktów ze strony.

Przygotowaliśmy aplikację rozwiązującą ten problem: zasada jej działania jest zbliżona do popularnych wyszukiwarek: robot wchodzi na wskazaną stronę internetową i sprawdza znajdujace się na niej linki, następne odwiedza wskazane adresy i ponawia proces. Zebrane strony są porównywane ze wzorcem (w tym wypadku – stroną produktu) system określa podobieństwo ich struktur, a także wskazuje pola (czyli tagi html), w których umieszczone są różne fragmenty opisu. Jeśli użytkownik zaakceptuje zaproponowany podział – system pobierze ze strony podzielone informacje do bazy danych. Uzyskane w ten sposób dane można z powodzeniem wybrać do arkusza kalkulacyjnego w pliku csv, albo przesłać np. do sklepu internetowego.

Pobieranie opisów to tylko jedno z możliwych zastosowań – system poradzi sobie także z problemami takimi jak odzyskanie treści z darmowego forum internetowego lub automatyczne pobieranie cen ze stron dystrybutorów (lub konkurentów). System jest wyposażony w „politykę grzeczności”, zatem generowany ruch nie będzie zauważalny dla indeksowanych stron. Dzięki harmonogramowi bardziej intensywne badania mogą być przeprowadzone w godzinach nocnych. Zastosowanie znajdzie się w każdej branży istniejącej w Internecie.

W najbliższym czasie planujemy rozszerzyć funkcjonalność o rozpoznawanie typu strony bez wzorca, korzystając z matematycznej analizy skupień. Metoda ta pozwoli wygodniej pracować na dużych stronach (powyżej 100 tys. podstron), które mają bardzo wiele typów widoków, bez konieczności wskazywania, który typ nas interesuje.

Naszym klientom oferujemy usługę jednorazowego skorzystania z programu (przygotujemy bazę w wybranej formie), okresową aktualizację (możemy się zintegrować z bazą danych), lub stały dostęp do programu z użytkiem wg. własnego uznania – program wymaga niewielkiej wiedzy o podstawach HTML, którą możemy przekazać w ramach szkolenia.