Clustering, Distributed Job Scheduling (OpenPBS, Torque)

  • Grüß euch!

    Meine heutige Frage richtet sich an die Linux Profis. Ich habe nun einen Auftrag bekommen, einen CLUSTER aufzusetzen auf der Uni. Überbegriff "Grid Computing / HPC". Die Rechnerinfrastruktur umfasst heterogene Knoten (Knoten mit unterschiedlichen Prozessorarchitekturen und Speicherbestückungen sowie ggf. VMware Server Maschinen, die ebenfalls als Knoten dienen sollen).

    Es sollen C++ (kein MPI vorerst!) und auch MATLAB Jobs sowie ggf. Mathematica Jobs über mehrere Maschinen scheduled werden, als Queue-/Job-Scheduler würde mir OpenPBS oder die Weiterentwicklung Torque vorschweben, wäre dies der richtige Ansatz?

    So sieht die Zielumgebung aus:

    CentOS 5.3 Linux

    Teilweise Dual Pentium4 Xeons mit 4GB RAM (x86/i686)
    Dual Quadcore Xeons (Core2) mit 16GB RAM (x86_64/x86 Multilib System)
    Später weitere Core 2 Maschinen mit Gentoo Linux, Fedora Core x Linux, CentOS 5.x Linux (hierauf sollen VMware Server laufen, die CentOS 5.3 als GuestOS für den PBS Node haben).

    Ich bräuchte also mehrfache, unterschiedlich konfigurierte Jobqueues (je nach Node/Zielrechner), das ganze ist ein massiv heterogener Cluster, bzw. soll einer werden.

    Hat damit jemand Erfahrung?

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • So, habe Mal versucht, Torque PBS mit Server, Scheduler und MOMs (Nodes) zu installieren. Bin soweit gekommen, daß das Zeug über Ethernet miteinander redet, ist sogar eine 80er-Jahre-Style UNIX GUI dabei, rofl...

    [Blockierte Grafik: http://personal.unileoben.ac.at/mlackner/torque-cluster/klasta.png]

    Nur die Konfiguration ist dezentral und beschissen. So richtig übermäßig inkonsistente, komplizierte Raketenwissenschaftler-Software.. Noch kA wie man eine Execution Queue mit irgendwas befüllen kann... und wie man die Clusterstorage konfiguriert..

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"