Frage an SCSI Experten zu einem interessanten und abstrusen Problem

  • Ich selber bin ja eigentlich gar keiner.. also "SCSI Experte". Aber einige Leute hier sind da ja glaube ich ziemliche Cracks, also folgendes Setup (Geht um meinen IBM PC Server 704):

    • Controller: IBM ServeRAID II ohne BBU
    • 2 (aktive!) SCA UW-SCSI Backplanes mit je 6 Disks, 12 Disks in Summe in RAID-5 mit etlichen Spares auf beiden Planes.

    Zur Bewertung wäre es vielleicht nützlich, wenn man SCSI noch "von damals" aus dem professionellen Sektor als Admin kennt.

    Fehlerbild:

    Die Maschine läuft für 2-3 Monate im Dauerbetrieb völlig normal. Ab ca. dieser Laufzeit wird eine der beiden Backplanes (bzw. alle daran angeschlossenen Platten) langsam. Man erkennt das daran, daß die HDD LEDs bei kurzen Random I/O Zugriffen nicht mehr nur kurz aufflackern, sondern eine halbe Sekunde dauerleuchten. Diese Backplane bremst dann das gesamte Subsystem herunter. Spürt man natürlich bei den Zugriffen auch bald Mal.

    Es sind immer nur eine Backplane bzw. ein SCSI Channel betroffen, und immer der selbe.

    Läßt man das so, dann degeneriert die Performance über mehrere Tage, maximal 1-2 Wochen weiter. Irgendwann ist die Backplane so langsam, daß sie mit den I/O Anfragen des Betriebssystems an den darunterliegenden Storagepool nicht mehr nachkommt, und dann staut sich das im Systemkernel, bis alles steht.

    So lange will man nicht warten, weil dann ein Hard Reset nötig ist; Zu Anfang des Auftretens der Symptome läßt sich die Maschine noch normal herunterfahren, wenn auch etwas langsamer als sonst, weil ja noch Daten auf das RAID rausgeschrieben werden müssen, aber jo.

    Analyseversuch:

    Bisher habe ich nur die Kabel ab- und angesteckt, sowie die RAID Controller Management Software von IBM konsultiert. Die Software vermeldet sowohl für die Platten wie auch für die aktiven Backplanes keinerlei Probleme. Auch nicht während das Problem auftritt. Das Systemlog des Betriebssystems meldet ebenfalls nichts auffälliges. Keine SCSI Busfehler, keine Paritätsfehler, gar nichts. Softwareseitig schaut alles so aus, als würde es wie am Schnürchen laufen.

    Interessant ist, daß die IBM Software echt bis zum bitteren Ende keinen Fehler auf Hardwareseite meldet.

    Meine Bitte:

    Am liebsten wäre mir jetzt ein Administrator, der dieses exakte Problem kennt und mir sofort sagen kann "Ah, Komponente X ist es mit höchster Wahrscheinlichkeit!". ;) Ansonsten wird das nur ein Ratespiel, aber auch das kann vielleicht helfen, wenn es von erfahrenen SCSI Nutzern bzw. Administratoren kommt.

    Ich möchte das Problem am besten mit nur einer einzelnen Downtime und so schnell wie möglich beseitigen. Es läge mir auch viel daran, das tatsächlich verantwortliche Teil vorab zu identifizieren, damit ich keine Ersatzteile verbaue, die es gar nicht braucht.

    Besagte Ersatzteile sind dank S2 Sedan's Leichtenfledderei und dank ServerWorlds vorhanden. Einen Backplanetausch will ich halt (so etwas anderes Schuld wäre) meiden, weil das recht aufwendig ist.

    Bin gespannt was ihr sagt. Danke!

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Hast du mal einen Link zu den Specs des Controllers und detaillierten Bildern? Hab jetzt bei der Suche nicht direkt was gefunden, nur nen alten Eintrag zum PC Server 704 bei IBM.

    Für mich hört sich das irgendwie nach nem Problem des Controllers an, als ob da evtl. über die lange Zeit ein Puffer für den betroffenen Kanal langsam voll läuft, bis nix mehr geht.

  • Ich hätte da jetzt auch auf Materialermüdung auf elektronischer Seite getippt. Elkos und Co sorgen auf Dauer für zuviel Korrekturkommunikation?

    Eventuell Kabellänge unterschiedlich, bei der ausfallenden Backplane länger?

  • Festplatten denke ich auch nicht, und zwar deswegen nicht, weil es immer eine komplette Backplane und alle 6 daran angeschlossenen Platten zeitgleich betrifft. Der Controller meldet halt keinerlei Fehler (Der EDO-DRAM Cache hat Parity oder ECC drauf). Wenn's der Cache wäre, müßte der Fehler im ServeRAID Manager aufscheinen. Und dann müßte der Fehler - so denke ich - erstens den ganzen Array betreffen (nicht nur eine einzelne Backplane) und anderer Natur sein?

    Zum Controller habe ich nur sehr alte, nicht besonders gute Bilder, aber hier sind's:


    IBM ServeRAID II (Klicken zum Vergrößern)

    Was man wohl schnell Mal tun könnte wäre es, die Kanäle zu tauschen und zu sehen ob das Problem mit Umstecken der Kabel am Controller mitwandert, oder ob die selbe Backplane betroffen bleibt. Die Testzeiten für jeden Fix sind halt arg mit mehreren Monaten Laufzeit... Weil ich aktuell keine Diagnosemöglichkeit habe als einfach "laufen lassen, warten & Tee trinken".

    Die Backplanes sehen so aus:

    Aktive SCA SCSI Backplanes (Klicken zum Vergrößern)

    Bilder einer ausgebauten Backplane sollte ich wo haben, damit man die auch von vorne sieht, finde ich nur grade nicht. Zur Not mache ich noch welche.

    Angefaßt wurde am Storagesystem seit 14 Jahren gar nichts, bis auf das einmalige Ab- und Wiederanstecken der SCSI Kabel am Controller.

    Edit: Infos zum ServeRAID II sind eigentlich recht einfach zu finden? Hier z.B. die [IBM ServeRAID Adapter Quick Reference]. IBM Teilenummer: 76H3587.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Der Artikel beschreibt aber eher generelle Leistungsprobleme, nicht sowas "seltsames". Firmwareversion des Controllers ist 2.88.10. Die Backplanes sind ESG-SHV SCA HSBP mit Firmwareversion 1.05. Beide Backplanes sind auf dem selben FW-Level.

    Konfiguration ist RAID-5 mit 3 Hotspares. Ein Stripe mißt 8kiB, ein Datenstrip ist also 64kiB breit, ein Datenstrip inkl. Paritätsblock ist 72kiB breit. Alignmentprobleme sind hier belanglos; Erstens weil sie nicht zum Problem paßten und zweitens weil es keine geben kann: Alle Platten haben eine Sektorgröße von 512 Bytes nativ. Sind ja alt.

    Größe der Dateisystemcluster: 512 Bytes.

    Das Problem war nicht immer da. Die Maschine ist ja früher jahrelang ohne Unterbrechung durchgelaufen, und auch ohne Probleme. Das erste Auftreten (damals dachte ich noch irgendwas im Betriebssystem dreht durch) ist schon mehrere Jahre her, so 3-4 vielleicht. Ich bilde mir ein - kann aber nicht zu 100% belegen - daß sich die Intervalle bis zum Auftreten des Problems nach einem Kaltstart über die Jahre verkürzt haben.

    Wollte diesen Thread schon seit Ewigkeiten Mal aufmachen, war nur immer zu faul. ;)

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Jo ich auch, aber ich will es nicht wahr haben! :topmodel:

    Kanal tauschen hätte mir aber auch schon früher einfallen können, das probier' ich als erstes. Sobald ich mich dazu aufraffen kann, spätestens aber beim nächsten Auftreten.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Ein Spare ist auf der oberen Plane, 2 auf der unteren. Wenn ich neu baue, habe ich RAID-5+0 vor (5+1 gibt's leider keins), und dann mache ich die Spares dediziert pro Backplane. Also ein RAID-5 oben mit 2 Spares, eines unten mit 2 Spares, und 0er drüber.

    Aber das ist noch Zukunftsmusik. Ausgefallen ist schon ewig keine Platte mehr.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Habe ich schon probiert mit viel linear I/O und random I/O, aber irgendwie erzeugt das kein Problem. Also zumindest nicht nach einem frischen Neustart.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Kanal Swap ist eine sehr gute Idee zur Fehlerfindung. Aber selbst wenn der Fehler wandert muss das nicht die Backplane sein, wenn ich mir die Karte so ansehe. Es sieht für mich so aus, als würden die Kanäle von unterschiedlichen Controllerchips verwaltet werden, vielleicht gibt es einfach auch auf einem Kanal ein Problem. Ich nehme an, du kannst nicht im Betrieb Mal mit einem infrarot Thermometer die Temperaturen der Chips messen und vergleichen? Vielleicht hat ja einer der Chips oder dessen Lötstellen einen Weg?

  • Temperatur und Ausdehnung / Zusammen-ziehen könnte auch eine Erklärung dafür sein, warum das Problem erst nach einer gewissen Zeit auftritt und es dann irgendwann so schlimm ist, das gar nichts mehr geht.

    Eventuelle mal die Karte ausbauen, einscannen oder mit einer Lupe die Lötstellen untersuchen.

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Kann man nicht zu 100% ausschließen (Kontaktproblem durch Temperatur), aber ich würde meinen dass das Problem dann schneller (nicht nach so langer Laufzeit) und auch durchschlagender auftritt (das HW Monitoring muss anschlagen).

  • Es ist bisher noch nie unter zumindest einem Monat Laufzeit aufgetreten. Dabei ist die Temperatur dann auch recht konstant. In dem Raum wo der steht und im Raum daneben gibt's auch keine Fenster, und keine Zugluft. Länger "kalt" ist er sowieso nie, weil wenn ich den Mal ausschalte, dann immer nur so kurz wie geht. Selbst beim Upgrade auf Overdrives lief er nur wenige Minuten nicht. Ich schaue immer, daß ich Downtimes so kurz wie nur irgendmöglich halte.

    Natürlich, ein's ist klar... irgendwo zwischen und bei RAID Controller und betroffener Backplane muß der Fehler ja liegen. Den Kanaltausch versuche ich als erstes. Ich hoffe das geht problemlos bei einem ServeRAID II. ;)

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • So, ich denke 21 Tage waren es jetzt, und das Problem ist mit dem heutigen Tage wieder aufgetreten. Damit habe ich jetzt den ersten und einfachsten Diagnoseschritt umgesetzt: Das Tauschen der SCSI Kanäle.

    Das ist halt ein RAID Controller aus einem anderen Zeitalter, der das nicht einfach Mal so hinnimmt. Beim Hochfahren meldet er erst Mal daß sich 9 Online Disks bewegt haben, und der Array vorerst "DEFUNCT" ist. Danach zeigt er ein Auswahlmenü an, bei dem ich nicht bei allen Optionen so ganz verstehe was sie wirklich tun (mein Originalhandbuch zur Karte schweigt sich zu den meisten aus), aber die beiden interessanten waren auf der Tastatur recht nah beieinander:

    • F5: Save configuration and MURDERIZE EVERYTHING!!!11*
    • F6: Save configuration and accept changes

    Ich glaube ich habe 5 oder 6 Mal wechselweise auf den Bildschirm und auf meinen Finger geschaut, nur um GANZ sicher zu gehen daß ich mir nicht den ganzen Array pulverisiere, aber ich habe F6 gut getroffen, und es rennt wieder alles. Jetzt heißt es wieder ein paar Wochen auf das Testergebnis warten. Ich melde mich dann mit dem Resultat.

    *Diese Meldung lautet im Original (falls das Mal jemand hier sucht): "F5: Save configuration and mark array as defunct"

    Edit: So, noch zum allerersten Mal eine "Synchronization" drüberlaufen lassen, also ein Scrub oder Verify, wie es die meisten RAID Controller nennen. Lief in etwas über einer Stunde sauber und ohne erkannte Fehler durch. Jetzt habe ich in der IBM Software endlich Mal rausgefunden wie das geht, hatte immer an den falschen Stellen gesucht...

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

    Edited once, last by GrandAdmiralThrawn (November 24, 2020 at 6:04 PM).