staging.inyokaproject.org

memtest86-Problem

Status: Gelöst | Ubuntu-Version: Ubuntu 22.04 (Jammy Jellyfish)
Antworten |

AugustQ

Anmeldungsdatum:
24. Oktober 2007

Beiträge: Zähle...

Hi,

mein Rechner stürzt in letzter Zeit ab, zu nicht vorhersehbaren Zeitpunkten. Entweder der Bildschirm friert ein oder er wird schwarz oder er bootet neu oder ....

Verdacht: Fehler auf RAM. Beim nächsten Bootvorgang zeigt er diverse Fehlermeldungen, darunter auch Hinweise auf Bank 5.

Also habe ich mir memtest86 geholt: https://www.memtest86.com/download.htm

Danach habe ich die img-Datei entpackt und auf einen USB-Memory-stick kopiert:

sudo dd if=memtest86-usb.img of=/dev/sde bs=1M conv=fsync

Stecke ich diesen Stick jetzt (wieder) in den PC rein, wird mir kein Laufwerk angezeigt. dmesg liefert:

[ 3786.698413] usb 1-4: USB disconnect, device number 2
[ 3809.863730] usb 1-4: new high-speed USB device number 5 using xhci_hcd
[ 3810.031746] usb 1-4: New USB device found, idVendor=0204, idProduct=6025, bcdDevice= 1.00
[ 3810.031756] usb 1-4: New USB device strings: Mfr=1, Product=2, SerialNumber=3
[ 3810.031760] usb 1-4: Product: Flash Disk      
[ 3810.031763] usb 1-4: Manufacturer: USB 2.0 
[ 3810.031766] usb 1-4: SerialNumber: 04529740812C
[ 3810.038791] usb-storage 1-4:1.0: USB Mass Storage device detected
[ 3810.039147] scsi host13: usb-storage 1-4:1.0
[ 3811.066706] scsi 13:0:0:0: Direct-Access     USB 2.0  Flash Disk       4.00 PQ: 0 ANSI: 2
[ 3811.067083] sd 13:0:0:0: Attached scsi generic sg5 type 0
[ 3811.067426] sd 13:0:0:0: [sde] 1016575 2048-byte logical blocks: (2.08 GB/1.94 GiB)
[ 3811.067575] sd 13:0:0:0: [sde] Write Protect is off
[ 3811.067579] sd 13:0:0:0: [sde] Mode Sense: 00 00 00 00
[ 3811.067724] sd 13:0:0:0: [sde] Asking for cache data failed
[ 3811.067731] sd 13:0:0:0: [sde] Assuming drive cache: write through
[ 3811.072003] sd 13:0:0:0: [sde] Attached SCSI removable disk

aber im Dateimanager sehe ich das Laufwerk nicht.

Was habe ich da falsch gemacht?

AugustQ

PS: ich habe versucht, die img-Datei direkt zu mounten. Da kommt dann das "Schreiben von Laufwerksabbildern" hoch. Gemacht, kein Unterschied.

Doc_Symbiosis

Avatar von Doc_Symbiosis

Anmeldungsdatum:
11. Oktober 2006

Beiträge: 4212

Du musst im Bios einstellen, dass er von USB bootet oder aber beim Booten einmalig USB als Boot-Device auswählen. Letzteres geht aber nicht bei allen Rechnern.

Taomon Team-Icon

Supporter
Avatar von Taomon

Anmeldungsdatum:
30. Januar 2011

Beiträge: 8269

Du kannst als alternative auch ein live linux längere Zeit benutzen. Sollte das auch abstürzen, weißt DU bescheid.

sudo dmidecode -t memory

bitte. Kommst Du leicht an den Arbeitspeicher ran an Deiner hardware (ist es z.B bei einem Desktop Rechner) dann entferne mal den Riegel aus der 5. Bank. Und mach ein Backup Deiner persönlichen daten.

Gruß Taomon

AugustQ

(Themenstarter)

Anmeldungsdatum:
24. Oktober 2007

Beiträge: 718

$ sudo dmidecode -t memory
[sudo] Passwort für august: 
# dmidecode 3.3
Getting SMBIOS data from sysfs.
SMBIOS 3.0.0 present.

Handle 0x0027, DMI type 16, 23 bytes
Physical Memory Array
	Location: System Board Or Motherboard
	Use: System Memory
	Error Correction Type: None
	Maximum Capacity: 16 GB
	Error Information Handle: 0x0026
	Number Of Devices: 2

Handle 0x002E, DMI type 17, 40 bytes
Memory Device
	Array Handle: 0x0027
	Error Information Handle: 0x002D
	Total Width: Unknown
	Data Width: Unknown
	Size: No Module Installed
	Form Factor: Unknown
	Set: None
	Locator: DIMM 0
	Bank Locator: CHANNEL A
	Type: Unknown
	Type Detail: Unknown
	Speed: Unknown
	Manufacturer: Unknown
	Serial Number: Unknown
	Asset Tag: Not Specified
	Part Number: Unknown
	Rank: Unknown
	Configured Memory Speed: Unknown
	Minimum Voltage: Unknown
	Maximum Voltage: Unknown
	Configured Voltage: Unknown

Handle 0x0030, DMI type 17, 40 bytes
Memory Device
	Array Handle: 0x0027
	Error Information Handle: 0x002F
	Total Width: 64 bits
	Data Width: 64 bits
	Size: 8 GB
	Form Factor: DIMM
	Set: None
	Locator: DIMM 0
	Bank Locator: CHANNEL B
	Type: DDR4
	Type Detail: Synchronous Unbuffered (Unregistered)
	Speed: 1200 MT/s
	Manufacturer: Kingston
	Serial Number: 9710F828
	Asset Tag: Not Specified
	Part Number: 9905678-012.A00G    
	Rank: 1
	Configured Memory Speed: 1200 MT/s
	Minimum Voltage: 1.2 V
	Maximum Voltage: 1.2 V
	Configured Voltage: 1.2 V

~$ 

Ich habe bereits den RAM-Riegel aus- und wieder eingebaut. Ebenfalls habe ich den RAM-Riegel von Steckplatz 1 auf 2 getauscht.

Mit Bank 5 meint der Text vermutlich einen internen Platz, also im Riegel. Da komme ich nicht dran.

AugustQ

(Themenstarter)

Anmeldungsdatum:
24. Oktober 2007

Beiträge: 718

Doc_Symbiosis schrieb:

Du musst im Bios einstellen, dass er von USB bootet oder aber beim Booten einmalig USB als Boot-Device auswählen. Letzteres geht aber nicht bei allen Rechnern.

Reihenfolge laut BIOS ist: USB, dann CD/DVD, dann harddisk/SSD.

sollte also passen.

Allerdings kann ich im normalen Betrieb den Memory-Stick nicht einbinden, auch nicht die IMG-Datei aus memtest86-usb.zip.

frostschutz

Avatar von frostschutz

Anmeldungsdatum:
18. November 2010

Beiträge: 7529

Der Kernel selbst hat auch einen rudimentären Memtest integriert, als Kernel-Parameter memtest=17 mitgeben, das testet 17 Patterns durch.

Ergebnis ist dann im dmesg einsehbar.

(funktioniert nur wenn CONFIG_MEMTEST aktiv ist)

Sieht dann so aus

[    0.000000] Linux version 5.15.0-43-generic (buildd@lcy02-amd64-076) (gcc (Ubuntu 11.2.0-19ubuntu1) 11.2.0, GNU ld (GNU Binutils for Ubuntu) 2.38) #46-Ubuntu SMP Tue Jul 12 10:30:17 UTC 2022 (Ubuntu 5.15.0-43.46-generic 5.15.39)
[    0.000000] Command line: BOOT_IMAGE=/casper/vmlinuz […] quiet splash memtest=17
[…]
[    0.001993] found SMP MP-table at [mem 0x000f6e70-0x000f6e7f]
[    0.002030] Using GB pages for direct mapping
[    0.002148] early_memtest: # of tests: 17
[    0.002149]   0x0000000000100000 - 0x0000000029bcb000 pattern 4c494e5558726c7a
[    0.118642]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 4c494e5558726c7a
[    0.487158]   0x0000000100000000 - 0x000000051aa00000 pattern 4c494e5558726c7a
[    3.231422]   0x000000051d411000 - 0x0000000840000000 pattern 4c494e5558726c7a
[    5.252322]   0x0000000000100000 - 0x0000000029bcb000 pattern eeeeeeeeeeeeeeee
[    5.333679]   0x0000000030ddd000 - 0x00000000bffdd000 pattern eeeeeeeeeeeeeeee
[    5.611227]   0x0000000100000000 - 0x000000051aa00000 pattern eeeeeeeeeeeeeeee
[    7.622752]   0x000000051d411000 - 0x0000000840000000 pattern eeeeeeeeeeeeeeee
[    9.151108]   0x0000000000100000 - 0x0000000029bcb000 pattern dddddddddddddddd
[    9.230975]   0x0000000030ddd000 - 0x00000000bffdd000 pattern dddddddddddddddd
[    9.505404]   0x0000000100000000 - 0x000000051aa00000 pattern dddddddddddddddd
[   11.517296]   0x000000051d411000 - 0x0000000840000000 pattern dddddddddddddddd
[   13.040767]   0x0000000000100000 - 0x0000000029bcb000 pattern bbbbbbbbbbbbbbbb
[   13.121812]   0x0000000030ddd000 - 0x00000000bffdd000 pattern bbbbbbbbbbbbbbbb
[   13.393850]   0x0000000100000000 - 0x000000051aa00000 pattern bbbbbbbbbbbbbbbb
[   15.388641]   0x000000051d411000 - 0x0000000840000000 pattern bbbbbbbbbbbbbbbb
[   16.917448]   0x0000000000100000 - 0x0000000029bcb000 pattern 7777777777777777
[   16.997421]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 7777777777777777
[   17.273268]   0x0000000100000000 - 0x000000051aa00000 pattern 7777777777777777
[   19.279001]   0x000000051d411000 - 0x0000000840000000 pattern 7777777777777777
[   20.805926]   0x0000000000100000 - 0x0000000029bcb000 pattern cccccccccccccccc
[   20.885372]   0x0000000030ddd000 - 0x00000000bffdd000 pattern cccccccccccccccc
[   21.158177]   0x0000000100000000 - 0x000000051aa00000 pattern cccccccccccccccc
[   23.156361]   0x000000051d411000 - 0x0000000840000000 pattern cccccccccccccccc
[   24.688247]   0x0000000000100000 - 0x0000000029bcb000 pattern 9999999999999999
[   24.767541]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 9999999999999999
[   25.039611]   0x0000000100000000 - 0x000000051aa00000 pattern 9999999999999999
[   27.033595]   0x000000051d411000 - 0x0000000840000000 pattern 9999999999999999
[   28.563750]   0x0000000000100000 - 0x0000000029bcb000 pattern 6666666666666666
[   28.643512]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 6666666666666666
[   28.914884]   0x0000000100000000 - 0x000000051aa00000 pattern 6666666666666666
[   30.925820]   0x000000051d411000 - 0x0000000840000000 pattern 6666666666666666
[   32.467530]   0x0000000000100000 - 0x0000000029bcb000 pattern 3333333333333333
[   32.548043]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 3333333333333333
[   32.821901]   0x0000000100000000 - 0x000000051aa00000 pattern 3333333333333333
[   34.829842]   0x000000051d411000 - 0x0000000840000000 pattern 3333333333333333
[   36.366617]   0x0000000000100000 - 0x0000000029bcb000 pattern 8888888888888888
[   36.446009]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 8888888888888888
[   36.717710]   0x0000000100000000 - 0x000000051aa00000 pattern 8888888888888888
[   38.739156]   0x000000051d411000 - 0x0000000840000000 pattern 8888888888888888
[   40.282192]   0x0000000000100000 - 0x0000000029bcb000 pattern 4444444444444444
[   40.364634]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 4444444444444444
[   40.637918]   0x0000000100000000 - 0x000000051aa00000 pattern 4444444444444444
[   42.654159]   0x000000051d411000 - 0x0000000840000000 pattern 4444444444444444
[   44.200743]   0x0000000000100000 - 0x0000000029bcb000 pattern 2222222222222222
[   44.281613]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 2222222222222222
[   44.556160]   0x0000000100000000 - 0x000000051aa00000 pattern 2222222222222222
[   46.552621]   0x000000051d411000 - 0x0000000840000000 pattern 2222222222222222
[   48.103628]   0x0000000000100000 - 0x0000000029bcb000 pattern 1111111111111111
[   48.184117]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 1111111111111111
[   48.457845]   0x0000000100000000 - 0x000000051aa00000 pattern 1111111111111111
[   50.472891]   0x000000051d411000 - 0x0000000840000000 pattern 1111111111111111
[   52.009552]   0x0000000000100000 - 0x0000000029bcb000 pattern aaaaaaaaaaaaaaaa
[   52.090367]   0x0000000030ddd000 - 0x00000000bffdd000 pattern aaaaaaaaaaaaaaaa
[   52.364894]   0x0000000100000000 - 0x000000051aa00000 pattern aaaaaaaaaaaaaaaa
[   54.382223]   0x000000051d411000 - 0x0000000840000000 pattern aaaaaaaaaaaaaaaa
[   55.917495]   0x0000000000100000 - 0x0000000029bcb000 pattern 5555555555555555
[   55.997000]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 5555555555555555
[   56.268768]   0x0000000100000000 - 0x000000051aa00000 pattern 5555555555555555
[   58.284468]   0x000000051d411000 - 0x0000000840000000 pattern 5555555555555555
[   59.812793]   0x0000000000100000 - 0x0000000029bcb000 pattern ffffffffffffffff
[   59.892252]   0x0000000030ddd000 - 0x00000000bffdd000 pattern ffffffffffffffff
[   60.168918]   0x0000000100000000 - 0x000000051aa00000 pattern ffffffffffffffff
[   62.173630]   0x000000051d411000 - 0x0000000840000000 pattern ffffffffffffffff
[   63.712158]   0x0000000000100000 - 0x0000000029bcb000 pattern 0000000000000000
[   63.792767]   0x0000000030ddd000 - 0x00000000bffdd000 pattern 0000000000000000
[   64.066232]   0x0000000100000000 - 0x000000051aa00000 pattern 0000000000000000
[   66.077822]   0x000000051d411000 - 0x0000000840000000 pattern 0000000000000000
[   67.611901] RAMDISK: [mem 0x29bcb000-0x30ddcfff]
[   67.611915] ACPI: Early table checksum verification disabled

Sollte dabei schlechter RAM gefunden werden wird die Adresse auch gleich gesperrt. Helfen kann das aber auch nur, wenn der Fehler tatsächlich lokal begrenzt ist.

Ansonsten gibts auch noch memtester für die Kommandozeile. Kann nur den freien RAM testen, aber das ist ja auch schon was.

AugustQ

(Themenstarter)

Anmeldungsdatum:
24. Oktober 2007

Beiträge: 718

ich hatte gerade wieder einen Absturz. Das lieferte mir der PC beim booten:

[    4.367354] mce: [Hardware Error]: Machine check events logged
[    4.367356] mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
[    4.367379] mce: [Hardware Error]: TSC 0 ADDR 1ffff90f353ce MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
[    4.367409] mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1676995848 SOCKET 0 APIC 3 microcode 8001126

beim vorigen Absturz sah die Fehlermeldung so aus:

[    4.375468] mce: [Hardware Error]: Machine check events logged
[    4.375470] mce: [Hardware Error]: CPU 6: Machine Check: 0 Bank 5: bea0000000000108
[    4.375493] mce: [Hardware Error]: TSC 0 ADDR 1ffffb2a49176 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
[    4.375523] mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1676906877 SOCKET 0 APIC 8 microcode 8001126

Das alles sagt mir recht wenig.

CPU ändert sich, Bank 5 bleibt gleich, ebenfalls die nachfolgende Adresse(?).

Any ideas?

Ist die CPU kaputt? Oder das RAM? Oder?

AugustQ

(Themenstarter)

Anmeldungsdatum:
24. Oktober 2007

Beiträge: 718

das fand ich gerade: https://wiki.gentoo.org/wiki/Ryzen#Random_reboots_with_mce_events

muss ich mir mal ansehen.

AugustQ

(Themenstarter)

Anmeldungsdatum:
24. Oktober 2007

Beiträge: 718

einiges dazu gelesen, ausprobiert, aber keine Verbesserung: weiterhin gelegentliche Abstürze.

OK, ich habe das Problem gelöst, indem ich einen neuen Rechner gekauft habe.

Jetzt kommen andere Probleme, hoffentlich kleinere.

Lidux

Anmeldungsdatum:
18. April 2007

Beiträge: 14945

Hallo AugustQ,

So geht es natürlich auch ....

Dann kannst du ja den Thread auf gelöst setzen. Danke

Gruss Lidux

Antworten |