Mon cluster - premières impressions...

Roh c'est quand même incroyable toute la matière sur ces forums, on aurait de quoi faire des news pour MacG sans problème plusieurs fois par jour. Dommage qu'on en aie pas fait une news avant d'autant plus que l'info était à portée mais au moins c'est fait :) Faudrait un système d'alerte pour "sujet intéressant pour les news" hein Benjamin ?
wink.gif


En tout cas bravo pour ce choix et merci pour toutes ces infos. A mon boulot on a reçu plus d'une centaine de G5 mais pas pour un cluster, uniquement des postes de travail individuel... dommage
laugh.gif
 
tu pourrais pas aller expliquer aux gens de Chasseurs d'images comment configurer un serveur, et comment traiter les commerciaux d'Apple ça calmerait tout le monde sur le "forum d'à coté" !!!
 
Bon, c'est pas pour relancer le sujet, mais comme j'ai dit que je vous tiendrais au courant... Voici la suite de mes fabuleuses aventures au pays des clusters...

La formation sur OsX server était prévue initialement sur 4 jours.
En fait, pour diverses raisons que je vais détailler, on va faire 2 x 2 jours.
En fait, cette suite va pas mal parler d'Apple Care - et de mes déboires avec cette honorable institution
crazy.gif

Il faut dire le contexte:
- 15 G5 pour le calcul (little big mac)
- 1 Xserve pour l'administration
Avec 15 G5 et un Xserve, pas question de multiplier par 15 les installs, mises à jour etc... Sans savoir comment faire, nous avions dans l'idée le système génial qui consiste à avoir un modèle et à l'installer sur toutes les machines. Les termes NetBoot et NetRestore n'évoquaient alors pas grand chose pour moi, mais bon, on était croyant; non-pratiquant mais croyant...

En fait, il faut avoir un modèle (master, mais le terme est à banir désormais il parait
laugh.gif
). Pas de souci, de toutes façons je comptais 'sacrifier' un des G5 pour le développement et les tests. Donc on s'orriente vers:
- 1 G5 de développement
- 14 G5 de production (petit 'little big mac')
- 1 Xserve chef d'orchestre
J'avais bien préparé un G5, pour en faire un master, et hop, le jour de l'arrivée du formateur, il démarre pas, odeur de fumée, et diagnostic des personnes compétentes appelées à son chevet : une alim défuntée pématurément ...
Pas de souci ! AppleCare est là !
On est Mardi, début d'après-midi.
Premier appel: message du répondeur: 'nous sommes en formation, veuillez rappeler dans 3 heures'. En fait, comme il est déjà 15 heures, ça leur laisse juste le temps de sortir de réunion avant la fermeture à 18 heures, et hop...
ooo.gif

Appel désespéré (et quelque peu revendicatif ) de mon copain Charles (celui qui m'a vendu et installé les machines, c'est lui qu'on voit sur les photos sur mon site) chez Apple: on arrive à ouvrir notre appel. En fin d'après-midi, AppleCare rappelle le bureau pour s'assurer de la panne: diagnostic, c'est bien l'alim, commande est faite, compter 2 jours.
Donc - et c'est dommage de pas passer plus de temps sur ce sujet parce que vraiment ça s'est bien passé - on décide avec le formateur que ça sera plutôt 2 fois 2 jours, comme ça on a le temps que la machine soit réparée. Je vous reparlerai plus tard de l'install, quand même...
Ah, oui, autre chose, pour ceux qui suivent,
wink.gif
mon Xserve a été livré avec Jaguar server, et pas Panther
crazy.gif

Bref j'ai hurlé un peu, et le formateur est arrivé avec une version de Panther Server, limitée au 31/12, en attendant une version définitive qui devait m'être envoyée en urgence.
Et, M'sieur Apple, j'attends encore ! Dans 5 jours mon Xserve est mort
frown.gif

RETOUR sur mon G5 en rade: 2 jours plus tard (le Jeudi matin) quelqu'un se présente au labo pour la réparation. Après vérif, il aparait qu'il a reçu un processeur et pas une alim. Un aller retour pour rien, et on en reprend pour 3 jours... Appel (furieux) à la boite qui devait faire la réparation, mais eux m'assurent que c'est Apple qui leur donne l'adresse, les refs et la pièce à remplacer, donc c'est chez Apple que ça a foiré.
Appel chez Apple (merci le téléphone main libre qui permet de travailler pendant la demi-heure d'attente) et là, ben on sait pas, on était pas là au début, tout ça, bref rien à cirer, de toutes façons il n'y a a pas de délai imposé pour effectuer la réparation, donc ta gueule...
Moi je décide de reviser ma configuration:
- 1 G5 HS
- 1 G5 de développement avec une partition pour faire un master
- 13 G5 de production (petit petit little big mac ?)
... et un Xserve paramétré lors de la formation, merci à Victor, sans blague, il est sympa et efficace.
Et je commence à faire mon master. On est Lundi, déjà, le temps passe, et le mec qui doit faire la réparation m'annonce que ça sera bon pour Mardi matin.
Au fait, vous ais-je dit que je comptais prendre des vaccances entre Noël et le premier de l'an ? Bref, fallait tout boucler avant le Mercredi après-midi.
Mardi matin (vers midi) arrivée du tech pour la réparation.
Démontage de l'alim, difficile, c'est vrai qu'elle est un peu planquée sur un G5. Echange standard. Essai de redémarrage: rien. Appel à AppleCare... Ils envoient une carte mère et 2 procs. Moi je m'en fous: j'ai mon master prêt sur un des G5, je vais bientôt tester, le reste... faut être philosophe...
Mercredi matin: test de NetRestore:
L'image disque du master est sur le Xserve, je NetBoote un des 13 G5, et miracle, ça marche... Je vis un grand moment de bonheur...
laugh.gif

Comme je suis fondamentalement parano (mais c'est pas moi qui ai commencé), je teste sur une autre machine, au hasard, et ça marche aussi !
cool.gif

Je décide de tester sur 2 machines à la fois, et ça plante...
Je vous passe les différentes combinaisons testées, mais bon, il n'y a que la première machine qui passe, les autres non (bien sur, avec un seul écran, c'est pas facile de suivre le démarage de 2 systèmes à la fois...).
On est Mercredi 24 Décembre, fin d'après-midi, soit je rentre à la maison, soit je divorce. Je réfléchis, mais bon, il y a un bon repas prévu le soir, je décide de rentrer...

Voila...
Je suis en vacances, et j'essaie de me détendre.
Je veux oublier que dans 5 jours je n'aurais plus de licence pour mon OsX server.
Mon G5 ne sera sans doute pas réparé, car même si certains étudiants sont au labo (merci les petits scarabées
laugh.gif
), ça m'étonnerait que ça bouge beaucoup d'ici Janvier.
Le 2, je repartirais joyeux vers le monde mystérieux du clustering. D'ici là j'écume les forums dédiés aux élevages intensifs de Mac. Je profite que mes enfants soient occupés par leurs joujoux par milliers.
Je crois que j'ai trouvé la cause du problème. Je vais peut-être essayer d'aller au labo en douce, mais faut pas que ma femme le sache, sinon elle me bute. Je vais lui dire que je vais au bordel, ça passera plus facilement...

Bonnes fêtes à tous
wink.gif


... Et au fait, Joyeux Noël aussi à Apple...
Si z'avez pas d'idées pour les résolutions de début d'année, j'ai des suggestions à vous faire
crazy.gif
 
iManu a dit:
Et, M'sieur Apple, j'attends encore ! Dans 5 jours mon Xserve est mort
frown.gif

En même temps, tu as passé le bug de l'an 2000 sans problème, alors pour 2004 ça peut bien secouer un peu
tongue.gif


Bon, bonne année donc et comment vont ton cluster, ta femme et tes enfants ?
smile.gif


 
cham a dit:
Bon, bonne année donc et comment vont ton cluster, ta femme et tes enfants ?
smile.gif
Pas mal, merci
laugh.gif

En ce qui concerne le cluster, ben mon G5 a été réparé cet après-midi (2 proc et une carte mère... l'est pas venu pour rien le réparateur cette fois
wink.gif
).
Mon OsX server est enfin installé avec une licence qui va jusqu'en 2005 - d'ici là on sera à la version chat persan du système, pas de souci...
Reste le netBoot/netRestore...
J'ai encore des trucs à apprendre. Mon problème est toujours que je ne peux netBooter qu'une machine à la fois. Par contre, le netRestore fonctionne pour plusieurs machines en même temps. C'est juste le lancement de l'image minimale qui ne se fait que sur une machine. J'ai regardé les forums, et soit c'est lié à mon switch, soit c'est un souci de permission/verrouillage de l'image minimale. Je vais me replonger dans la doc... Mais bon, ça se précise.

De plus, je viens de regarder de près Xgrid, et ça a l'air d'être pile poil ce qu'il me faut. Vivement que je trouve le temps de tester.

Voilou, suite au prochain numéro...
zen.gif
 
maintenant qu'Apple a rendu public un beta de Xgrid, est ce que tu pense l'utiliser pour le cluster?
Je suis dessus...
laugh.gif

En gros, mes G5 sont maintenant opérationnels, et je commence à tester mes codes dessus.
L'idée, bien sur, c'est de tout lancer - et récupérer - à partir du Xserve (G4). Ce qui veut dire que je dois préparer des exécutables, installés sur le G4, mais qui tournent sur les G5.
Xgrid me semble complètement adapté à mes besoins
smile.gif
 
Du nouveau pour little big Mac iManu ?
wink.gif


En tous cas j'aime bien ses aventures, je vais peut-être tenter de faire un cluster avec mon G4 400, mon Alu 12", l'imac 500 et aussi le PowerMac 7300
laugh.gif
 
Euh... ah oui, j'ai failli l'oublier celui-là, merci Florent
zen.gif


Bon sa puissance de calcul risque d'être négligeable, mais ça me rapproche des 1100 éléments hein.
laugh.gif


Xgrid tourne dessus
confused.gif
wink.gif
 
Tout va bien ... en gros...
Je devrais avoir du nouveau demain, parce que la personne qui fait la formation revient demain et j'ai une liste de questions en suspens...

Pour l'instant: c'est silencieux, ça chauffe et j'ai pas encore fait le tour de la mise en oeuvre...

Faut que je me dépêche avant que les G5 soient obsolètes
laugh.gif
 
2 questions:
1) Tu ne postes plus sur ce sujet, donc ça marche bien ?
2) Pourquoi ne pas profiter du dévouement des MacUsers pour utiliser Xgrid à l'instar de Xgrid Stanford ?
Non pas que je sois chauvin, mais quand j'entends que les chercheurs Français ont des restrictions budgétaires tous les ans, il faut bien trouver des solutions gratuites mais efficaces...
Et là, rien que sur MacG, il y a un sacré potentiel de calcul partagé ;)
 
mad'doc a dit:
Non pas que je sois chauvin, mais quand j'entends que les chercheurs Français ont des restrictions budgétaires tous les ans, il faut bien trouver des solutions gratuites mais efficaces...
Et là, rien que sur MacG, il y a un sacré potentiel de calcul partagé ;)

je suis partant! :)
 
Salut à tous :)

mad'doc a dit:
1) Tu ne postes plus sur ce sujet, donc ça marche bien ?
Pas trop mal...
Je dois dans un premier temps remercier l'implication des Apple's boys sur ce coup là. Les personnes avec qui j'ai été en contact, où qui sont venues me/nous former sont très pointues, et efficaces.
Le point...
Cluster opérationnel... :cool:
enfin y a encore du taf ... :mouais:

Le fonctionnement:
Les clients se connectent via vpn sur le Xserve, où ils ont un compte.
De là, ils lancent leurs simulations grace à un script, qui permet de lancer via Condor différentes tâches sur les divers noeuds du cluster. Quand le travail est fini, le script concatène les résultats, donc l'utilisateur récupère une seul fichier.

En gros, là où sur une machine tu fais:
Gate toto.mac
Sur le cluster ça devient:
CondorGate toto.mac N
où N est le nombre de noeuds demandés. Bref, pour l'utilisateur c'est transparent. :up:

Pourquoi Condor ?
- J'ai testé Xgrid (i.e. mes étudiants, harcelés par moi et sous la contrainte, etc... :D )
Le souci, c'est que la version (c'est jamais qu'une bêta) ne gère pas bien les transferts de 'gros' fichiers, et mes résultats font jusqu'à plusieurs Go... Donc on attend Tiger avec impatience...

- J'ai aussi (idem :D ) testé Pooch , mais c'est surtout utile pour les applications parallélisées avec MPI. Souci, celle que j'utilise se bloque quand on lance de trop grosses simulations (en résumé, le buffer excède sa taille max, et le code n'est pas modifiable... ça a été développé à une époque où il ne semblait pas possible de lancer de trop gros jobs... j'attends la mise à jour...).

Condor est gratuit, gère les files d'attente, bref ça correspond à mes besoins...

mad'doc a dit:
2) Pourquoi ne pas profiter du dévouement des MacUsers pour utiliser Xgrid à l'instar de Xgrid Stanford ?
Non pas que je sois chauvin, mais quand j'entends que les chercheurs Français ont des restrictions budgétaires tous les ans, il faut bien trouver des solutions gratuites mais efficaces...
Et là, rien que sur MacG, il y a un sacré potentiel de calcul partagé ;)
A voir...
Pour l'instant, la solution Xgrid ne marche pas pour moi.
Dans le futur, pourquoi pas...
Par contre, un des problèmes à régler, c'est le volume de donnée à transférer, en entrée et en sortie. En gros, même si on diminue le nombre de particules à simuler (ce qui diminue le temps de calcul pour chaque machine), la géométrie peut quand meme être compliquée, donc les fichiers d'entrée/sortie volumineux.
Je crois que dans un premier temps, on va se concentrer sur une solution locale (Little Big Mac) puis, toujours sur le réseau local (i.e. rapide) voir si on peut récupérer les Macs du labo quand ils sont inactifs. Après... ça demanderait sans doute une re-écriture sévère du code pour décomposer les tâches en tout petits bouts, style seti...

Problèmes en suspens:
La linéarité des perfs: Si je regarde le temps gagné, on doit pouvoir faire mieux...
En gros, si je multiplie par 2 le nombre de noeuds, je ne divise pas par 2 le temps de calcul, et ça me gène... Bien sur tout n'est pas parfait dans ce bas monde, mais on devrait pas être loin. Actuellement, (par exemple) 16 noeuds équivalent à 10 noeuds 'théoriques', i.e. les perfs que j'aurais avec 10 noeuds si on avait une linéarité parfaite. Un stagiaire analyse les performances, le but étant de déterminer où on peut gagner...

L'alim :mad: :mad: :mad:
J'ai acheté des onduleurs, pour faire face aux coupures, micro où non... En gros, comme je suis sur le circuit secouru, si coupure il y a, elle ne dure pas plus de quelques secondes. Bref, du boulot typique pour un onduleur. Selon les données constructeur, j'ai acheté 8 onduleurs 800 VA, soit:
1 pour le Xserve et le switch
7 pour 14 G5, donc 2 G5/onduleur
Ben ça le fait pas... Le Xserve tient, pas les G5... Or, en cette période d'orage, les coupures sont fréquentes. Bref, un de mes étudiants a perdu une smulation qui tournait depuis 30 jours :(
Ca veut dire qu'il faut bosser aussi sur le type de travail qu'on envoie à faire, et essayer de faire des 'petits' jobs, comme ça on ne perd jamais beaucoup de données... Mais bien sur, pour celà il faut que la linéarité soit bonne...

D'autres nouvelles plus tard...
J'ai espoir de pouvoir passer le Xserve en Xserve G5, et d'acquérir un système Xraid, pour compléter la bestiole... mais chut, c'est pas officiel, je vous ai rien dit... :rateau:
 
J'ai espoir de pouvoir passer le Xserve en Xserve G5, et d'acquérir un système Xraid, pour compléter la bestiole... mais chut, c'est pas officiel, je vous ai rien dit...

bah dit moi ya des credits chez toi :D

un cluster de g5 pas mal

je suis d'accord avec toi j'ai essayé de mettre en prod xgrid
sous la tutel des cnrsseux pas moyen

fais tu de la spectro de masse ?

:zen:
 
  • J’aime
Réactions: iManu
tatouille a dit:
bah dit moi ya des credits chez toi :D
Ben, on va pas se plaindre...
Ceci dit, ça m'a pris 2-3 ans pour y arriver...
En gros, à l'INSERM ou au CNRS, faut anticiper pas mal, c'est à dire demander maintenant ce dont tu auras besoin dans 2 ans... ou plus!
Par exemple, dès que j'ai su que j'allais avoir mon cluster, j'ai cherché les sources de financement pour le compléter... Mais bon, dans mon domaine (cancer) en ce moment, il y a des sous, et on peut grapiller des miettes...
Ca fait bizarre de dire des miettes. Mais par rapport au coût de la recherche en médecine, un cluster c'est pas grand chose. Le souci, c'est que c'est quand même dur à obtenir...

fais tu de la spectro de masse ?
Nan, moi c'est des simulations des interactions rayonnement-matière dans le domaine médical...