Ich selber bin ja eigentlich gar keiner.. also "SCSI Experte". Aber einige Leute hier sind da ja glaube ich ziemliche Cracks, also folgendes Setup (Geht um meinen IBM PC Server 704):
- Controller: IBM ServeRAID II ohne BBU
- 2 (aktive!) SCA UW-SCSI Backplanes mit je 6 Disks, 12 Disks in Summe in RAID-5 mit etlichen Spares auf beiden Planes.
Zur Bewertung wäre es vielleicht nützlich, wenn man SCSI noch "von damals" aus dem professionellen Sektor als Admin kennt.
Fehlerbild:
Die Maschine läuft für 2-3 Monate im Dauerbetrieb völlig normal. Ab ca. dieser Laufzeit wird eine der beiden Backplanes (bzw. alle daran angeschlossenen Platten) langsam. Man erkennt das daran, daß die HDD LEDs bei kurzen Random I/O Zugriffen nicht mehr nur kurz aufflackern, sondern eine halbe Sekunde dauerleuchten. Diese Backplane bremst dann das gesamte Subsystem herunter. Spürt man natürlich bei den Zugriffen auch bald Mal.
Es sind immer nur eine Backplane bzw. ein SCSI Channel betroffen, und immer der selbe.
Läßt man das so, dann degeneriert die Performance über mehrere Tage, maximal 1-2 Wochen weiter. Irgendwann ist die Backplane so langsam, daß sie mit den I/O Anfragen des Betriebssystems an den darunterliegenden Storagepool nicht mehr nachkommt, und dann staut sich das im Systemkernel, bis alles steht.
So lange will man nicht warten, weil dann ein Hard Reset nötig ist; Zu Anfang des Auftretens der Symptome läßt sich die Maschine noch normal herunterfahren, wenn auch etwas langsamer als sonst, weil ja noch Daten auf das RAID rausgeschrieben werden müssen, aber jo.
Analyseversuch:
Bisher habe ich nur die Kabel ab- und angesteckt, sowie die RAID Controller Management Software von IBM konsultiert. Die Software vermeldet sowohl für die Platten wie auch für die aktiven Backplanes keinerlei Probleme. Auch nicht während das Problem auftritt. Das Systemlog des Betriebssystems meldet ebenfalls nichts auffälliges. Keine SCSI Busfehler, keine Paritätsfehler, gar nichts. Softwareseitig schaut alles so aus, als würde es wie am Schnürchen laufen.
Interessant ist, daß die IBM Software echt bis zum bitteren Ende keinen Fehler auf Hardwareseite meldet.
Meine Bitte:
Am liebsten wäre mir jetzt ein Administrator, der dieses exakte Problem kennt und mir sofort sagen kann "Ah, Komponente X ist es mit höchster Wahrscheinlichkeit!". Ansonsten wird das nur ein Ratespiel, aber auch das kann vielleicht helfen, wenn es von erfahrenen SCSI Nutzern bzw. Administratoren kommt.
Ich möchte das Problem am besten mit nur einer einzelnen Downtime und so schnell wie möglich beseitigen. Es läge mir auch viel daran, das tatsächlich verantwortliche Teil vorab zu identifizieren, damit ich keine Ersatzteile verbaue, die es gar nicht braucht.
Besagte Ersatzteile sind dank S2 Sedan's Leichtenfledderei und dank ServerWorlds vorhanden. Einen Backplanetausch will ich halt (so etwas anderes Schuld wäre) meiden, weil das recht aufwendig ist.
Bin gespannt was ihr sagt. Danke!