Nowe posty

Autor Wątek: Webbot - bot internetowy czy stos,czy kolejka,czy kolejka priorytetowa  (Przeczytany 7421 razy)

Offline

  • Users
  • Prawie jak Guru
  • ****
  • Wiadomości: 272
    • Zobacz profil
Zaczęłem niedawno tworzyć projekt webbot'a, bot zbierającego linki coś w stylu googlebot'a. Stowrzyłem pierwszą działającą wersję webbot'a, która, jak można się spodziewać nie jest idealna.

Mam pytanie podstawowe:

jak mógłbym zorganizować mechanizm zarządzania zbieraniem linków czyli linki z pobranej strony wrzucane są do tablicy na końcu, a z początku usuwany jest pierwszy (jak jest teraz) czy zabawić się w stosy czy kolejki dla stron, kolejka priorytetowa dla domeny z otwartymi połączeniami?

Aktualnie projekt jest w php, ale chciałbym się przerzucić na c/c++. Jednakże w c zawsze miałem problemy z napisami, a php jest wyjątkowo proste do pisania kodu.

Prosiłbym też o opinie itd.

http://www.kgb-hacking.yoyo.pl/index.php?action=projects

Offline Kamil Leduchowski

  • Users
  • Stały bywalec
  • ***
  • Wiadomości: 152
    • Zobacz profil
Webbot - bot internetowy czy stos,czy kolejka,czy kolejka priorytetowa
« Odpowiedź #1 dnia: 2010-06-22, 15:21:38 »
Z "napisami" miałeś problem? Ok jasne. Super fachowe określenie od kogoś kto zajmuje się hackingiem od jakichś 65 lat... Trochę szacunku dla ludzi :-P

Offline Paweł Kraszewski

  • Administrator
  • Guru
  • *****
  • Wiadomości: 2493
  • Lenistwo jest matką potrzeby = babcią wynalazku
    • Zobacz profil
    • Linuxpedia.PL
Webbot - bot internetowy czy stos,czy kolejka,czy kolejka priorytetowa
« Odpowiedź #2 dnia: 2010-06-22, 20:59:31 »
Może lekko OT, ale popatrz na bibliotekę mechanize (Python/Ruby/PERL) lub hpricot (Ruby)?

A co do pytania pierwotnego (powiedziałbym dość filozoficznego):
Może lista FIFO adresów serwerów zawierająca listy FIFO adresów linków w ramach serwera.
Nowe hosty dopinasz na końcu kolejki hostów, linki na hostach na końcu danej kolejki hosta.
W1 Konsumujesz wszystkie linki z pierwszej pozycji kolejki hostów, jak host zostanie pusty, to go konsumujesz i przechodzisz do następnego, itd.
EWENTUALNIE
W2 Cyklicznie konsumujesz po jednym linku z każdego hosta, eliminując z listy hosty puste - pozwoli to rozłożyć obciążenie między hosty.
EWENTUALNIE
W3 Do każdego nowego hosta tworzysz wątek konsumujący jego kolejkę linków
EWENTUALNIE
Tworzysz pulę wątków realizujących W1 lub W2 (W1 z pulą wątków to pi*oko TeleportPro)
Paweł Kraszewski
~Gentoo/FreeBSD/OpenBSD/Specjalizowane customy

Offline

  • Users
  • Prawie jak Guru
  • ****
  • Wiadomości: 272
    • Zobacz profil
Webbot - bot internetowy czy stos,czy kolejka,czy kolejka priorytetowa
« Odpowiedź #3 dnia: 2010-06-23, 09:33:13 »
Dzięki pkraszewski ;-)

Ach sorry, rozumiem, że lubisz stringi Dankdancer ;-). Następnym razem postaram się użyć się super hax00rskiej terminologii czyli emacsem przez sendmail zaprogramuje tobie mózg szatańskim shellcodem tworząc tobie wodę z mózgu.

Czy jest sens używając nagminnie bez potrzeby terminologii angielskiej? I kto mówił, że zajmuję się twoim tak zwanym hackingiem? Z resztą na mianem hackera tylko inny hacker może cię nazwać, w przeciwnym razie jest lamerem uważającym że twój hacking to
1) http://www.google.pl/search?hl=pl&rlz=1G1GGLQ_PLPL323&q=exploit+shellcode&aq=f&aqi=&aql=&oq=&gs_rfai=
2) wget exploit
3) chmod +x eploit
4) ./exploit