Salut, c'est encore Charles, le gars de Xgrid@Stanford. J'ai lu tous ces messages, et je suis épaté par l'excitation autour de Xgrid (plus qu'autour de ce que j'en fais et de la biologie derrière, mais ca c'est normal!!).
Je voudrais ajouter qq précisions:
- FIREWALLS:
Xgrid ne laisse AUCUN port constamment ouvert et en écoute sur la machine, donc la plupart des firewalls sont OK (ils ne bloquent que le trafic 'entrant' c'est-à-dire le trafic qui essaie de contacter une machine derrière le firewall sur un port donné); certains firewall 'paranos' bloquent aussi le trafic sortant (avec pour but de limiter la diffusion des virus... qui sont de toutes façons déjà infiltrés à ce stade!), ce qui pose un problème... il faut quand même un minimum de communication! La solution est de demander aux administrateurs réseaux d'ouvir les ports sortants 49000-65535 (protocol BEEP). Ces ports ne restent ouverts que le temps à l'agent de contacter le controlleur (et non l'inverse) et donner de ses nouvelles. Le numéro de port change à chaque comm, et un échange de mots de passe encodés a lieu avant d'envoyer les données.
- UTILISATION DE LA CPU
Un ordinateur 'idle', ca veut dire 15 minutes d'inactivité (souris-clavier). Le process 'biock' démarre alors. Il a la priorité minimale (nice=20 sous Unix), donc dès qu'une autre application a besoin de la CPU, biock ralentit, jusqu'à 0% CPU si nécessaire. Pour voir ça en direct, mettez l'agent sur 'Always' (puis Stop-Start), allez dans /Applications/Utilities/Activity Monitor.app (humm... l'équivalent français) et dans le menu 'Monitor-Show CPU History'. En bleu, c'est le process biock (il est 'nice'). Faites plein d'autres trucs sur la machine, regardez comme il descend tout de suite... Résultat des courses: que l'agent soit 'Only on idle' ou 'Always', ça ne fait pas une grande différence...
- ALORS CA TOURNE OU PAS ??
L'économiseur d'écran de Xgrid a un bug: il a tendance à afficher 0 GHz même quand le cluster est à plein régime. Donc, si l'aiguille ne bouge pas, ne pas s'impatienter, c'est un bug... On devrait bientôt avoir sur le site la vitesse du cluster en temps réel...
Si le screensaver est buggy, regardez en utilisant 'top' ou /Applications/Utilities/Activity Monitor.app (voir plus haut) et vous serez fixé
Mais aussi, parfois, bon, le cluster ne tourne pas! C'est arrivé plusieurs fois cette semaine. Parfois, on fait des modifs sur le code, on arrête le serveur, fait qq tests, puis ça repart.
Ces interruptions laisse les agents inquiets (je parle des machines): ils n'arrêtent pas de lancer des messages: alors? alors? alors? alors? alors? (les ordinateurs sont têtus et ne se lassent pas). Un message sur ce forum en fait état. Si un job était en cours, il continue à tourner, parce que l'agent espère que le serveur va revenir et veut donner les résultats dès qu'il revient.
Finalement, parfois, ça ne tourne pas, parce qu'il y a un pb avec la configuration sur l'agent ou que la personne n'a pas appuyé sur 'Start' ;-) N'oubliez pas en cas d'erreur de faire Stop-Start pour valider les modifs.
En conclusion, je voudrais remercier la quantité INCROYABLE de gens qui ont envoyé un email et essayé et souvent réussi à se connecter. Merci, merci, merci! J'essaye de répondre à chacun mais ça prend du temps...
charles