2005-10-26 11:38:26 Stilgar napisał:
> Witam.
>
> Niedawno postanowiłem uruchomić klaster na 2 kompach (Celeron 300A i Pentium 166 MMX).
> Nałożyłem łatki na jądro (2.4.30), skompilowałem, oba kompy sie ładnie wykrywają, w /proc/hpc
> sa wszystkie informacje...
>
> Problemy zaczynają sie w momencie, kiedy chce uruchomic jakis proces na drugim komputerze
> używając mosrun albo kiedy jakis proces sam chce migrować. Taki program od razu sie wywala z
> segmentation fault...
>
> Dodatkowo wyświetla sie taka informacja:
> Oct 26 11:11:15 localhost kernel: <1>Unable to handle kernel NULL pointer dereference at
> virtual address 0000001c
> Oct 26 11:11:16 localhost kernel: printing eip:
> Oct 26 11:11:16 localhost kernel: c0162dcc
> Oct 26 11:11:16 localhost kernel: Oops: 0002
> Oct 26 11:11:16 localhost kernel: CPU: 0
> Oct 26 11:11:16 localhost kernel: EIP: 0010:[set_brk+60/152] Not tainted
> Oct 26 11:11:16 localhost kernel: EFLAGS: 00210286
> Oct 26 11:11:16 localhost kernel: eax: 0000001c ebx: c94aa000 ecx: 0000001c edx:
> ffff0001
> Oct 26 11:11:16 localhost kernel: esi: 080e8000 edi: 080ec000 ebp: 00000000 esp:
> c94abbe0
> Oct 26 11:11:16 localhost kernel: ds: 0018 es: 0018 ss: 0018
> Oct 26 11:11:16 localhost kernel: Process sh (pid: 3260, stackpage=c94ab000)
> Oct 26 11:11:16 localhost kernel: Stack: 0000a1b8 080e1ca4 cb710880 c94abd24 c0165035 080e7478
> 080ebe5c c03555fc
> Oct 26 11:11:16 localhost kernel: c016465c c94abd7c 080e1000 080e1ca4 c94aa000 00006478
> c29aeb20 00001812
> Oct 26 11:11:16 localhost kernel: 00000000 00000000 080e7478 080e1ca4 080e0ca4 08048000
> 0805b4b0 00000008
> Oct 26 11:11:16 localhost kernel: Call Trace: [load_elf_binary+2521/3892]
> [load_elf_binary+0/3892] [rtl8139_interrupt+204/276] [search_binary_handler+122/420]
> [do_execve+474/740]
> Oct 26 11:11:16 localhost kernel: [do_execve+601/740] [sys_execve+47/96]
> [call_with_regs+75/148] [deputy_syscall+249/540] [sys_execve+0/96]
> [deputy_main_loop+1054/1240]
> Oct 26 11:11:16 localhost kernel: [mosix_pre_usermode_actions+60/116]
> [straight_to_mosix+5/13]
> Oct 26 11:11:16 localhost kernel:
> Oct 26 11:11:16 localhost kernel: Code: c3 8d 76 00 55 89 e5 83 ec 2c 57 56 53 8b 4d 0c 8b 45
> 14 8b
>
>
> Przeszukałem google i wiekszość dostepnej dokumentacji, jeszcze chyba tylko na ircu nie pytalem
>
>
Proponuje powyłączać migshm (migrację pamięci współdzielonej) i oba systemy (kernela i ich programy - wszystko!) skompilować na minimalny system. Skoro ma migrowac z 686+mmx+sse+... na 586+mmx to mogą powstać błędy spowodowane tymi różnicami.