Frage an SCSI Experten zu einem interessanten und abstrusen Problem

  • Da sind sicher Coronaviren auf den Platten :bonk:

    Die Verifikation (nachdem ich sie endlich Mal gefunden habe) sagt zu mir: Negativ!

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Rein aus der Hüfte geschossen möchte ich dir jetzt Cronenberg's Film "eXistenZ" empfehlen!

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • eXistenZ - genau in dieser Schreibweise :)

    Habe den Film schon tausendmal gesehen, aber jedes Mal denke ich mir am Schluss nur "WTF" ...

    (sorry für offtopic)

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Dieses Mal hat es sogar weniger als einen Monat bis zum Wiederauftreten des Problems gedauert - für den Testfall eh gut - und ein Zwischenergebnis liegt vor.

    Das Problem ist mit dem Kabel mitgewandert. Demzufolge ist die SCSI Backplane als Fehlerquelle wohl auszuschließen, und es sollte an einem von zwei Dingen liegen:

    1. Am Kabel
    2. Am SCSI Controllerchip von Kanal 1

    Als nächstes werde ich versuchen, den Finalisten zu bestimmen; Da der Controller drei Kanäle bzw. interne Anschlüsse hat, werde ich die beiden Backplanes einfach auf Kanäle 2 und 3 hängen. Bleibt das Problem auch dann bestehen, so ist es wohl das Kabel. Tritt es nicht wieder auf, liegt es wohl am Contollerchip, wie von Tweakstone [vermutet]. Kabel 1 lasse ich Mal auf Anschluß 2, Kabel 2 kommt auf Anschluß 3. Mache ich wahrscheinlich heute noch.

    Dann wieder waaarten. ;)

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Hmm, interessant! Bin wirklich gespannt, was dabei rauskommt.

    Ich halte den Controller tatsächlich für wahrscheinlicher, weil ja normal nichts an dem Kabel bewegt wird wenn das Ding vor sich hin läuft. Und der Controller ist eben Elektronik, die altert. Andererseits sind Kabel immer gern genommene Fehlerquellen :D

    Es bleibt spannend :spitze:

  • Und da haben wir den Schrott schon wieder remote hart vom Netz nehmen bzw. kaltstarten müssen. Da ist nicht Mal mehr die Shutdownprozedur durchgegangen, das RAID ist gesteckt. Die Sau!!

    Wenigstens KVM-over-IP und die Steckergruppenschaltung von der neuen Eaton USV funktionieren nice! :spitze:

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Und was habe ich Hirsch gemacht am 16.12.2020? Nicht die Kabel umgesteckt jedenfalls. :( Najo, war ja auch remote, der Restart. Jetzt, ca. 5 Monate später ist das Problem erneut aufgetreten.

    Damit geht der Fehlertest in die hoffentlich letzte Phase: Ich habe Kanal 1 auf 2 und 2 auf 3 umgehängt. Na Mal sehen was in den nächsten Monaten passiert...

    Das wird wohl meine längste Hardwarefehlersuche bisher. Wobei es ja mehr Warten als Suchen ist.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Habe momentan zwar nicht viel Muße für's Netz, aber das hier wollte ich trotzdem nochmals ergänzen. Das Problem ist mittlerweile so schlimm geworden, daß der Controller den aktiven SCSI Management Controller der ersten Backplane nicht mehr sehen konnte. Damit ist scheinbar auch die Hotspare (HSP) Funktionalität ausgefallen, und alle drei Hotspares an eben der Position waren plötzlich down. Die Datendisks an der Plane wurden alle neu erkannt und "verschoben". In der Software sah das jetzt so aus, als wären die Datenplatten plötzlich direkt am Controller angeschlossen, anstatt via Backplane.

    Wenn man JETZT den Kanal am Controller gewechselt hat, ist alles nur noch schlimmer geworden, da hat er dann die komplette Backplane inkl. aller Disks vermißt. Also zurück... Seeehr wacklige Situation.

    Dennoch ein Hoch an die IBM Controllerfirmware, die sowas kann (bis zu 6 Disks weg und davon ein Recovery), und den Nutzer auch vor Aktionen immer brav um Erlaubnis fragt... Nicht übel dafür, daß das erst die zweite Generation von PC RAID überhaupt ist.

    Drei plötzlich "tote" Hotspares, markiert durch die orangen LEDs (Klicken zum Vergrößern)

    Jetzt habe ich erst Mal folgendes gemacht:

    1. Shutdown
    2. Boot von alter Disk Imaging Software CD (danke, SCSI UltraPlex 40x, dafür daß du einfach ALLES liest)
    3. Volles Disk Image vom RAID über LAN auf die Workstation gezogen (~5-6h)

    Danach dachte ich mir: ALLES raus, und RAID mit anderer Hardware komplett neu aufbauen. 25 × 146GB, 10.000rpm SCA SCSI Disks liegen ja rum, und auch der modernste IBM RAID Controller, der in dem System noch lauffähig sein soll: Ein ServeRAID 4H! PCI-X Doppeldecker, der eben auch mit einem reinen 5V PCI 2.0 Bussen kann.

    Unten: ServeRAID II, oben: ServeRAID 4H (Klicken zum Vergrößern)

    Beim 4H fehlt die Batterie, die 128MiB Cacheplatine bleibt aber installiert. Das kann man durchaus machen, die Firmware erlaubt dennoch ein Aktivieren des Write Through Caches. Grund: Die Batterie war schon hart am Platzen. Hatte zwar Ladung, aber... nein! Hab's lieber runtergerissen, bevor alles rausrinnt. Hab' eh alles hinter einer USV.

    Beim POST zeigte sich, daß der 4H beide Backplanes (!) und alle 12 Platten erkannt hatte. Bedauerlicherweise war er dennoch nicht betriebsfähig. Er POSTete seinen Firmwarebanner ca. 30 Mal hintereinander auf den Schirm (wtf?), und zeigte danach den Arraystatus korrekt an. Auch in's IBM Firmware Minikonfigurationsprogramm konnte ich noch rein. Aber danach steckte er einfach fest beim POST. Also es ging schlicht nicht weiter, er blieb in BIOS Status 130 stecken, was im Prinzip der I/O Teil vom POST dieser Maschine ist.

    Zig Sachen probiert, aber nicht hinbekommen. Fuck.

    Also einen Ersatz ServeRAID II von S2Sedan reingesteckt. Auch der erkannte alles. Aber: Selbes Fehlerbild (huh?!). Auch der steckte im POST fest, obwohl alles andere zu laufen schien, inkl. auch CTRL+Alt+Del. Was für ein Dreck.

    Apropos Dreck... davon war auch MEHR als genug da...

      

      

    Insbesondere rechts unten. Zum Glück sieht man auf den Fotos nicht das ganze Ausmaß des Horrors (Klicken zum Vergrößern)

    Einiges vom gröbsten Staub hatte ich da schon entfernt. Da war auch noch Dreck von vor der Installation der feinen Aquariumdrahtnetze drin. Also auf den groben Dreck hat er dann jahrelang Feinstaub draufgezogen, was eine nette Form von dickem "Zement" über die Backplanes gezogen und die gelochten Platinen fast völlig verstopft hat. Auch alle Bauteile waren versaut, auf'm originalen ServeRAID II übrigens auch.

    Mal alles halbwegs gründlich gereinigt, nicht nur so oberflächlich wie sonst. Das hat gedauert. Danach den alten ServeRAID II, die alten Disks (mit bestehendem RAID) und noch dazu ein modernes LTO-4 Bandlaufwerk eingebaut, eines der letzten in voller Bauhöhe mit dem großen Motor drin, ein HP StorageWorks Ultrium-4 U320 LVD/SE SCSI Gerät. Das hat mal so 4000€ gekostet. Chef auf der Arbeit hat es mir nach einer LTO-6 SAS Neuanschaffung auf Anfrage hin für diesen Server überlassen (Danke!).

    Tape:

    HP Ultrium LTO-4 an Adaptec AHA-19160 (Klicken zum Vergrößern)

    Eine Blende fehlt, weil man die nicht einbauen kann, wenn schon eine HDD per IBM Schienen drinsteckt. Najo. Ajo, danke auch an S2Sedan, der mir weitere Schienen besorgt hat! Sonst hätte ich pfuschen müssen.

    Der Windows 7 Treiber (älter gibts ned) von HP für das Laufwerk installiert und funktioniert überraschend auch unter Windows 2000 Server, man könnte also sogar NTBackup nutzen. Dazu aber HP DataProtector Express Single Server Edition (Lizenz beim Laufwerk dabei). Full/Incremental Zyklus Mal hochgezogen, damit's endlich auch ein echtes, laufendes Backup gibt, nicht nur jährliche Diskabbilder.

    Leider hängt sich das Laufwerk "ASYNC" an den AHA-19160 Controller, anstatt U160 auszuhandeln. Also langsamer. Vielleicht ein Kabelproblem? Jumper und Termininierung passen, Disk am selben Kabel synced U160. Mal schauen ob ich einen anderen Abgriff probiere.

    So.

    Jetzt ist also der ursprüngliche ServeRAID II mit den alten Disks drin (Sägewerk!). Zu meiner äußersten Überraschung hat er jetzt plötzlich wieder beide Backplane Management Controller erkannt, und die Spares waren nicht mehr "offline defunct", sondern "online defunct". Also habe ich die den IBM ServeRAID Manager instruiert, er möge mir die Disks ersetzen. Er hat erkannt, daß da noch intakte Spares stecken und hat selbige ohne Ab-/anstecken sofort reaktiviert und an den Array gebunden:

    IBM ServeRAID II mit aktivem RAID-5 und 3 HSPs sowie zwei aktiven Backplane Controllern

    Er schreit nur - wie immer, das kann man nicht abdrehen - wegen der abgelaufenen Garantie der Platten.

    Tjo...

    Nach wie vor traue ich dem Braten nicht über den Weg. Zudem ist äußerst fraglich, warum der ServeRAID 4H und vor allem der zweite ServeRAID II nicht ganz durch den POST laufen wollten, obwohl die Initialisierung erfolgreich war. Da stinkt noch was nach Fisch. Aber kann auch an der Firmware liegen. Die Bootkacke vom IBM PC Server 704 ist sowieso das zickigste das ich je gesehen habe. Wenn Mal ein OS hochkommt, hat man gewonnen, aber da muß man es erst Mal hinschaffen...

    Oder... war es vielleicht nur der Feinstaubkleister, der hier elektrische Probleme verursacht hat?

    Wäre so etwas auch denkbar? Oder nein, anders! Nicht denkbar. Hat sowas schon Mal jemand gesehen? Ein Storage Array Versagen auf elektrischer Ebene durch Verschmutzung? Also wirklich "live" gesehen und vielleicht auch behoben und damit als solches identifiziert?

    Sonst frage ich Mal den Irren auf HWLuxx mit der HP Variante von meinem Trumm. Bevor ich nochmal fast umsonst 10 Stunden Downtime habe.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Der "Irre auf HWLuxx" ist auch hier registiert. Ich nehme an, du meinst den User "tbird".

    "Du bist und bleibst a Mensch und du kannst eben net deine menschlichkeit überwinden."

    Dennis_50300

  • Ich überfalle eigentlich immer dort seinen HP Serverthread mit meinem IBM Zeug. ;)

    Finde aber mit der Suche keinen Nutzer "tbird" oder "TBird" hier auf VA. Oder ich bin nur zu blöd, um richtig zu suchen.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Ich tipp immer noch auf ausgtrocknete Elkos und Co. bevor da der Staub kurzschließt ;) Besonders viele Leute zum Vergleich werden so edle Hardware auch nicht mehr am Laufen haben. Das Ultrium hab ich mein auch noch iwo rumfliegen, falls Du das als Backup-Backup brauchen könntest.

  • Nen Versuch wäre es wert. Wobei ich hier der Meinung bin, daß man bei einem Industriegerät ganz andere Qualität an die Elektronik stellt und somit vor allem die Elkos ganz anders beschaffen sind, als bei dem üblichen Computerkrempel, den man hinterhergeschmissen kriegt.

    Außerdem steht bei GATs Gerät nicht "Made in China" drauf.

    "Du bist und bleibst a Mensch und du kannst eben net deine menschlichkeit überwinden."

    Dennis_50300

  • Tobi : Wenn es ein LTO-4 mit voller Bauhöhe ist, dann gerne. Also sprich: Das Ultrium 1840 für SCSI. Kannst es ja Mal in den Marktplatz werfen. Außer mir wird es eh keinen jucken schätze ich Mal. ;) Ersatzteile kann ich nicht genug haben.

    Bei Elkos habe ich nur meine Sichtkontrolle und die Aussagen von Backfire, der zwei der Netzteile (leider erfolglos, die Dinger sind komplexe Schweine) überarbeitet hatte. Soweit ich mich erinnere hatte er den Bauteilen eine sehr hohe Qualität attestiert, aber genau habe ich's auch nicht mehr im Kopf. Die größeren Kondensatoren stecken sowieso auf der PDU, in den Netzteilen und noch auf den CPU Risern. Solche Elkofässer wie auf gängigen Mainboards gibt es hier weder auf der Hauptplatine, noch auf den Controllern oder den Backplanes. Nur SMD Zeug.

    Was auch gegen die Theorie spricht ist, daß ich da zig Powercycles probiert habe. Also nicht nur Warmstarts, sondern richtig auf kalt runter und hoch. Immer dasselbe, nur schlimmer werdend über die Jahre. Auch jetzt aktuell ließ sich dem so nicht beikommen. Und plötzlich erkennt er nach der Reinigung wieder alles? Das kommt mir schon seltsam vor.


    Wie gesagt reden wir hier von sehr feinem Staub, also eine Korngröße unter dem was das menschliche Auge (zumindest meins) sehen kann. Und das hat halt fast alles zugekleistert gehabt. Mich wundert das Verhalten halt, zudem ich nicht glaube, daß Elkos zu spontaner Selbstheilung neigen.

    Edit: Es muß auch nichts "edles" zum Vergleich sein, vor allem weil dieses alte Rostfaß hier den Begriff eh kaum noch verdient. :topmodel: Kann auch gern irgendeine alte Hardware im Dauerbetrieb sein, die Mal ein Fehlerbild gezeigt hat, das durch Reinigung verschwunden ist. Natürlich meine ich damit keine Kühlungsprobleme, sondern Fehler die eben auch in kaltem Zustand auftreten.

    Kann ja nicht sein daß hier noch nie wer Probleme mit richtig verdreckten PCs hatte? :spitze:

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Doch, ich würde hier auf jeden Fall mitgehen mit deiner Vermutung. Ich hab gestern schon überlegt, aber mir will nicht einfallen, wo ich schonmal Probleme durch extreme verstaubung hatte und was das genau war. Aber ich hatte das mindestens auch schon einmal, ich DENKE es ist auch tatsächlich der Feinheit des staubes geschuldet. Weil ich hab schon ebenfalls normale PCs gehabt, die praktisch so voll mit Staub waren, dass das halbe Case damit gefüllt war. Die liefen aber noch problemlos :topmodel:

    Also definitiv ein seltenes Phänomen wenn denn an dem ist, aber nicht auszuschließen.