[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Top->Data Corruption, bitte Daten sichern!


Guten Morgen,

Top lief gestern und heute Nacht durch. Allerdings gibt es dennoch
Grund zur Sorge, da ZFS korrumpierte Daten gefunden hat und es gestern
Nacht einige Core Dumps gab.

<ACHTUNG>
Ich habe das Backup Script deaktiviert.

	1. Es ist mir unbekannt ob die Probleme mit Top das Backup kaputt
       machen oder nicht.
	2. Das Backup generiert massiv IO, was fuer diese Art von Fehler
       anfaellig ist.
    3. Die Maschine laeuft ohne ECC Ram, das heisst ZFS funktioniert
       nicht so zuverlaessig wie es das koennte.

Falls ihr wichtige Daten auf euren Jails habt, bitte sichert die
moeglichst bald.
</ACHTUNG>

Ich bin mir noch nicht sicher wie wir weiter verfahren:
	- Top zur Analyse offline nehmen
	- Top laufen lassen und moeglichst schnell migrieren

Ich tendiere zu letzterem. Gibt es Gegenmeinungen?

Details:

# tail /var/log/messages
Apr 21 06:00:04 top4 kernel: pid 71162 (zfs), jid 0, uid 0: exited on signal 11 (core dumped)
Apr 21 07:01:21 top4 kernel: pid 75848 (httpd), jid 6, uid 80: exited on signal 11
Apr 21 08:00:04 top4 kernel: pid 80272 (zfs), jid 0, uid 0: exited on signal 11 (core dumped)
Apr 21 08:14:34 top4 kernel: pid 81457 (httpd), jid 6, uid 80: exited on signal 11
Apr 21 10:14:30 top4 kernel: pid 90530 (php-cgi), jid 19, uid 80: exited on signal 11
Apr 21 15:22:11 top4 kernel: pid 92420 (httpd), jid 6, uid 80: exited on signal 11

(jid 0 ist host, jit 6 ist das uugrn jail, jid 19 ist das acme jail)

# zpool status -v
  pool: zroot
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://illumos.org/msg/ZFS-8000-8A
  scan: scrub repaired 0 in 0 days 13:21:01 with 0 errors on Fri Apr 17 17:40:24 2020
config:

        NAME          STATE     READ WRITE CKSUM
        zroot         ONLINE       0     0     0
          mirror-0    ONLINE       0     0     0
            gpt/zfs0  ONLINE       0     0     0
            gpt/zfs1  ONLINE       0     0     0
        logs
          mirror-1    ONLINE       0     0     0
            gpt/log0  ONLINE       0     0     0
            gpt/log1  ONLINE       0     0     0
        cache
          gpt/cache0  ONLINE       0     0     0
          gpt/cache1  ONLINE       0     0     0

errors: Permanent errors have been detected in the following files:

        <0x229fe7>:<0xa688>

Das bedeutet, dass es zumindest eine unbekannte (vermutlich geloeschte
Datei, sonst wuerde der Dateiname da stehen) erwischt hat.

Von dem Fehler geht die Welt nicht unter. Es haeufen sich aber die
Anzeichen, dass da was nicht stimmt.

Viele Gruesse,
Stefan
-- 
UUGRN e.V. http://www.uugrn.org/
http://mailman.uugrn.org/mailman/listinfo/uugrn
Wiki: https://wiki.uugrn.org/UUGRN:Mailingliste
Archiv: http://lists.uugrn.org/