SMART Werte (Linux smartctl) - Brauche Rat

  • Hallo zusammen, lange nix mehr gepostet hier. :-/

    Folgendes Problemchen

    Ich betreibe seit mehreren Jahren einen (Software) RAID5 Verbund mit insgesamt 4 Platten.

    Jetzt ist mir schon mehrmals (das letzte Mal vor ungefähr einem Monat) eine Festplatte aus dem Verbund geflogen. Ich konnte diese jedoch jedesmal wieder hinzufügen, die RAID Daten waren noch drauf und nach einem Re-Sync war der Verbund wieder komplett sauber, ohne Problemchen.

    Heute morgen dann ein aggressives Piepsen von der Kiste und siehe da, schon wieder ist /dev/sdc rausgeflogen. Also Seriennummer ermittelt und die Platte ausgebaut.

    Bis hierhin sieht das gut aus finde ich.


    Hier kommt das Seltsame


    In den Server Logs selber ist auch von fehlgeschlagenen Lesevorgängen zu lesen (reiche ich im EDIT nach).


    Nun die Frage: Was zur Hölle ist mit der Platte los ?

    Der Server ist derzeit aus, der Verbund läuft mit 3 Festplatten weiter, aber ich überlege gerade echt, ob ich

    a) eine andere (N.O.S) baugleiche Platte einbauen soll und das Raid resyncen lasse.
    b) die Festplatte wieder einbaue und das Kabel austausche

    Option b) deswegen, weil ich solche Fehlermeldungen bereits mit anderen Festplatten hatte und ich hatte bisher immer das Gefühl, dass es ein Verbindungsproblem ist.
    Die Sata Kabel sind eher von der dickeren Sorte mit einer Art "Woll-Ummantelung", also es keine dünnen Papierkabel.


    Das ganze Setup hängt an einem separaten RAID Controller (Areca 1260 PCI-X .... ich glaube das es ein 1260 ist)


    Danke für euer Feedback.

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • So, hier noch der (gekürzte mittels Duplikate entfernen) Output von /var/log/syslog.

    Achja, bevor einer anfängt zu schreien. Backups sind vorhanden. Jeden Montag um Mitternacht lasse ich einen rsync Job auf eine externe USB Platte schreiben und ab und zu (also manuell) mach ich ein rsync auf eine andere (aber baugleiche) externe USB Platte.
    Und da das RAID ja _noch_ mit 3 Platten weiterläuft (ja ja, wenn jetzt noch eine stirbt, dann ist Essig, ich weiß), mache ich mir noch keine Sorgen. Aber es nervt ungemein....


    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

    Edited once, last by Crash486 (June 2, 2024 at 12:49 PM).

  • Ich habe mir mal den Spaß gemacht und

    a) auf der "defekten" Platte einen "SMART long-selft-test" (smartctl -t long dev/sd hau.mich.blau)
    b) eine von den beiden Reserve-Platten eingebaut.

    Anhand der Seriennummer konnte ich die Festplatte zuordnen, ein Re-Sync ist am laufen.


    Code
    root@Saturn:/media/SaturnRaidShare/finance/backend# cat /proc/mdstat
    Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10] 
    md0 : active raid5 sdc[4] sdd1[6] sda1[0] sdb[5]
          8790389760 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/3] [UUU_]
          [>....................]  recovery =  1.0% (30026368/2930129920) finish=532.7min speed=90724K/sec
          
    unused devices: <none>
    root@Saturn:/media/Saturn

    Habe an den Kabel oder Anschlüsseln jetzt mal nichts verändert, ich beobachte das ganze Mal.

    Wenn es weiterhilft, hier ein Auszug aus "lspci"


    Tyan K8S-D , 2x Dual-Core Opteron, 12GB RAM.
    System ist

    root@Saturn:/media/SaturnRaidShare# uname -a
    Linux Saturn 4.19.0-26-amd64 #1 SMP Debian 4.19.304-1 (2024-01-09) x86_64 GNU/Linux
    root@Saturn:/media/SaturnRaidShare#

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Welches Dateisystem verwendest Du denn? Btrfs?

    Ich werde mich von keinem einzzzigen Prozzzessor trennen.
    Jedoch lockt es mich beinahe, ihn Dir zu überlassen, nur um zu sehen, wie er Dich in den Wahnsinn treibt :evil:

    Meine Begehren


  • Dateisystem ist ext4.
    @Lotusdrache glaubst Du, die Fehler haben etwas mit dem Dateisystem zu tun ?
    Das resync ist in 260 Minuten fertig, bisher keine Ausfälle dabei.

    Btw, die "defekte" Platte ist mit ihrem "long-self-test" fertig. Guckste da:

    Code
    SMART Self-test log structure revision number 1
    Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
    # 1  Extended offline    Completed without error       00%     55995         -
    # 2  Short offline       Completed without error       00%     55988         -


    Ich hatte solche Lesefehler bzw. seltsame Fehler auch mal früher mit einem "billo Sil3114 SATA RAID" Controller (diese 0815 PCI Steckkarten).
    Das hier ist aber ein spezieller Controller, auch wenn der schon etwas betagter ist.
    ARC-1110 / ARC-1120 | SATA RAID Adapters | 廣安科技 Areca

    Natürlich könnte es sein, dass die Elektronik auf der Festplatte einen Hau wech hat... Muss es beobachten.

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Reinige mal alle SATA Ports mit ISO Propanol. Tausch die Kabel aus und dann schau mal wie er sich macht. Ich denke hier ist irgendetwas mit der Verbindung... Ach ja NT kannst du auch gerne mal Testen. Dies kann sehr schnell auch mal unerwartet Probleme machen.

  • Das verbaute Netzteil war dieses hier: https://www.technic3d.com/review/netztei…l-im-test/2.htm

    Aber eine Idee ist es, die Stecker sauber zu machen. Danke für den Tipp.

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Dateisystem ist ext4.
    @Lotosdrache glaubst Du, die Fehler haben etwas mit dem Dateisystem zu tun ?

    Hatte neulich ähnliche Probleme mit einem BtrFS. Lesefehler beim Kopieren verschiedener Dateien (Datei ist beschädigt, kann nicht gelesen werden, ist nicht vorhanden usw.), aber die Überprüfung der Platte - es ist eine klassische WD Magnetscheibenplatte - mittels WD Diagnosetools ergab keinen Fehler. Dazu kamen noch weitere Probleme wie lange Bootzeiten von > 10 min zum Laden des Desktops, keine Netzwerkverbindung zur USB-Platte an der Fritzbox möglich, CD-abhängige Spiele unter WINE ließen sich nur umständlich starten, weil das einbinden der CD nicht richtig funktionierte...

    Letzten Endes hab ich alles platt gemacht: nach Datensicherung, soweit sie möglich war, alle Partitionen auf allen Platten gelöscht, Platten mit ext4 neu eingerichtet (aber das verwendest Du ja schon), System neu aufgesetzt und seitdem hab ich keine Probleme mehr. Ob da jetzt irgendeine Konfigurationsdatei nach zahlreichen Updates unter Beibehaltung des Home-Verzeichnisses inkompatible Einträge enthielt oder wirklich das Dateisystem beschädigt war, läßt sich jetzt natürlich nicht mehr eruieren.

    Ich werde mich von keinem einzzzigen Prozzzessor trennen.
    Jedoch lockt es mich beinahe, ihn Dir zu überlassen, nur um zu sehen, wie er Dich in den Wahnsinn treibt :evil:

    Meine Begehren

  • Vor dem Einsatz von BtrFS im Produktivbetrieb schrecke ich persönlich nach wie vor zurück. Angeblich sind zumindest Einzelplattenbetrieb und RAID-1 jetzt stabil, aber alleine daß man von RAID-5 nach wie vor die Finger lassen sollte schreckt mich ab. Ich würde hier eher auf xfs oder ext4 setzen. Oder gleich auf die Königsklasse mit ZFS.

    Zum hier auftretenden Fehler: Ich gehe davon aus, daß sich Error: ICRC, ABRT hierfür verantwortlich zeichnen dürfte. In der Tat handelt es sich hier um SATA/SAS Übertragungsfehler, am ehesten also wirklich Kabel und/oder Stecker. "ICRC" steht hier für "Interface Cylic Redundancy Check", also passen Prüfsummen auf'm SATA/SAS Bus nicht mehr zu den Daten, es hat also eine Korruption auf der Schnittstelle stattgefunden. Je nachdem womit du das RAID betreibst sind dann die Software bzw. Firmware/Treiber dafür verantwortlich wie mit sowas umgegangen wird. Aber ehrlicherweise weiß ich auch nicht wie btrfs, LVM oder das gute alte md hier genau tun.

    Wenn Bier's Rat mit der Reinigung nichts bringen sollte würde ich seinem zweiten Vorschlag folgen und einfach Mal die Kabel tauschen. Das ist günstig und einen Versuch wert. Daß hierfür das Netzteil verantwortlich wäre glaube ich eher nicht, da würden andere Teile der Hardware eher die Grätsche machen denke ich mir. Aber was weiß man... Alles ist möglich. Aber zuerst immer das günstigste Trumm tauschen und dann hocharbeiten.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

    Edited 2 times, last by GrandAdmiralThrawn (June 3, 2024 at 3:48 PM).

  • Am Dateisystem kann es gar nicht liegen.

    Du hast etwa diesen Stapel:

    Dateisystem
    Softwareraid
    Hardware

    Dein Problem liegt auf der Hardware ebene, dein Software Raid hat es gesehen und die HDD gekickt.

  • Am Dateisystem kann es gar nicht liegen.

    Du hast etwa diesen Stapel:

    Dateisystem
    Softwareraid
    Hardware

    Dein Problem liegt auf der Hardware ebene, dein Software Raid hat es gesehen und die HDD gekickt.

    Ja, diesen Verdacht habe oder hatte ich ebenfalls. (auch der "Stapel" ist mir soweit klar, Dateisystem ist die oberste Ebene).


    Lotosdrache, sorry für's falsche Ansprechen :)
    Bzgl. des Dateisystems, ich kenne all die anderen gar nicht. Nur vom Hören-Sagen. Habe also immer den Standard genommen oder auch bei ganz alten Systemen auch ext2.

    Also Kabel durchtauschen ist auch eine super Idee, dann müsste ja irgendwann eine andere Festplatte aus dem Verbund fliegen.

    Danke für die technischen Erklärungen @GAT.


    Wegen des Netzteils... Hmm, das habe ich damals (also vor ungefähr 8 Jahren) extra so angeschafft. Muss da mal schauen ob ich überhaupt etwas zum Tauschen _hätte_.

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Ganz falsch ist das natürlich nicht. Mein Mainsys hat ja für ca. 2-3 Jahre zunehmende und ebenso zufällige BSOD's geworfen, am Ende war's das Netzteil. Das hatte ich aber erst korrekt diagnostiziert, als es das Flash Backup Modul meines RAID Controllers getötet und mein System in eine "100ms up, down, 100ms up, down..." Schleife gepushed hatte. Aber ähnliches ist mir auch mit einem defektem Mainboard passiert, was zufällige BSODs angeht: War immer "irgendwas". disk.sys, ntfs.sys, nv4_mini.sys, such's dir aus. Manchmal auch der Creative Treiber meiner Auzentech X-Fi. BSOD Galore. Da war es also das Brett, weil da hatte ich nahezu alles andere schon getauscht (PSU, CPU, RAM, Graka). Fuck, ich hasse Mainboardtausch.

    Wie auch immer, wenn du die Disks direkt am Mainboard angehängt hast, könnte natürlich auch das Board schuld sein. Aber das ändert nichts daran, daß man sich die billigsten Teile zuerst vorknöpfen sollte! Ich sage Mal so dahin: Zuerst Kabel und Stecker, dann Netzteil, dann Brett.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

  • Quote

    Wie auch immer, wenn du die Disks direkt am Mainboard angehängt hast, könnte natürlich auch das Board schuld sein. Aber das ändert nichts daran, daß man sich die billigsten Teile zuerst vorknöpfen sollte! Ich sage Mal so dahin: Zuerst Kabel und Stecker, dann Netzteil, dann Brett.

    Joa, Brett. Boah nee... Das ist tatsächlich ätzend, dann muss ich ja alles auseinander nehmen :(

    Kabel - Stecker - Netzteil - Controller - Mainboard.
    Das wäre meine persönliche Reihenfolge.

    Also die Platte hängt jetzt am selben Stecker und selber Port.

    Ich muss abwarten, bis der Fehler nochmal auftritt (wie das so oft bei der Störungsbeseitigung ist...)
    Vielleicht _ist_ es ja doch die Festplatte. Das sind tatsächlich die ältesten Komponenten. Und sind auch in 2 anderen System gelaufen, haben also auch schon Laufzeit runter.

    Ich danke euch für eure Tipps und Ratschläge !

    Die Frau hat schon ganz ängstlich gefragt, ob die Daten denn jetzt weg sind.

    Offtopic: wir reden hier nicht nur von Filmen, Musik oder Downloads. Nope... Bilder und Dokumente auch. Ich selber digitalisiere alles an Briefverkehr mittlerweile. Texterkennung drüber jagen und mit Recol indexieren. Ich muss nur "Heizöl 2022" eingeben, schon finde ich die Rechnung. (Sofern ich sie nicht in der Ordnerstruktur finde).
    Das geht mir tatsächlich besser von der Hand, als mit endlos-vollen Papier Ordnern rumzuhantieren, wo man das was man sucht eh nie findet. Oder es zu lange dauert, bis man es gefunden hat.

    IBM ThinkpadX31 der kleine Pinguin für unterwegs
    2x AMD Opteron 246 (ehm. 244er) 4 GB RAM, Tyan K8W Tiger eine "Troye" Linux Workstation für den Power-User,Debian, 7 3.2.0-4 amd64
    Thinkpad 760ED, Win 3.11 für Unterwegs.
    achja: GA-7IXE4 Sockel A Board, Voodoo 5 5500. Die LAN Schlampe, eines Tages bekommt sie anständiges Zuhause.
    Gigabyte-G5AA, Matrox G450DualHead, AMD K6-2, Terratec EWS64XL (64MB RAM) - Keyboard MIDI Workstation

    Nur ein Klassiker ist'n Klassiker. 3dfx und BMW

  • Mache ich genauso, was Dokumente angeht. Das Papier kommt in's Archiv und wird i.d.R. nie wieder angefaßt.

    Zu den Daten: Einfach z.B. monatliche Vollsicherungen bzw. Spiegelungen einplanen. Eventuell auch nur von den wichtigsten Daten, um Geld zu sparen. Ich nutze dafür ein USB 3.1 Festplattendock, Toshiba (davor HGST) SATA Platten und zur Lagerung einen [Logilink UA0193 Festplattenkoffer] aus Metall mit antistatischer Schaumstoffeinlage:


    LogiLink UA0193 (Klicken zum Vergrößern)

    Das was ich als "Kerndaten" bezeichne, also das wirklich wichtige Zeug wie eben Dokumente, das sichere ich auf zwei Festplatten, wovon eine räumlich redundant und wasserdicht in einem Bankschließfach hinterlegt wird.

    Meine Backuplösung ist dabei ziemlich primitiv: Einfach WinBatch + rsync + diff. Unter Linux kannst das quasi gleich machen, einfach WinBatch durch ein POSIX Shellscript in dash, bash oder was auch immer ersetzen. Zudem ist rsync unter Linux sehr robust und deutlich performanter als unter Windows.

    Das ganze geht relativ billig und bietet erheblich viel zusätzlichen Schutz vor Verlusten. Den Koffer gibt's um knapp 30€ und eine Toshiba Cloud-Scale Capacity MG09ACA 18 TB Platte kostet ca. 280€ (bester Preis pro TB von allen Herstellern und Modellen). Ein Dock gibt's um ca. 20€. Den Koffer gibt es auch als kleinere Version für 5 Platten mit gleicher Modellnummer mit Modellnummer UA0194, aber der bringt's nicht, weil er ca. gleich viel kostet wie der größere.

    1-6000-banner-88x31-jpg

    Stolzer Besitzer eines 3dfx Voodoo5 6000 AGP Prototypen:

    • 3dfx Voodoo5 6000 AGP HiNT Rev.A-3700

    [//wp.xin.at] - No RISC, no fun!

    QotY: Girls Love, BEST Love; 2018 - Lo and behold, for it is the third Coming; The third great Year of Yuri, citric as it may be! Edit: 2019 wasn't too bad either... Edit: 2020... holy crap, we're on a roll here~♡! Edit: 2024, finally last year's dry spell is over!

    Quote Bier.jpg@IRC 2020: "Je schlimmer der Fetisch, desto besser!"

    Edited 4 times, last by GrandAdmiralThrawn (June 4, 2024 at 8:38 AM).