Discussion:
Geforce 9100 (HP C78) nouveau firmware load failed, 1* eingefroren und?
(zu alt für eine Antwort)
Kay Martinen
2024-06-09 21:07:33 UTC
Permalink
Hallo.

Heute bemerke ich auf einem HP Pavilon PC (a6724de) der mit Linux mint
läuft ein Problem.
02:00.0 VGA compatible controller: NVIDIA Corporation C78 [GeForce 9100] (rev a2) (prog-if 00 [VGA controller])
Subsystem: Hewlett-Packard Company C78 [GeForce 9100]
Flags: bus master, fast devsel, latency 0, IRQ 21, NUMA node 0
Memory at fd000000 (32-bit, non-prefetchable) [size=16M]
Memory at e8000000 (64-bit, prefetchable) [size=128M]
Memory at e6000000 (64-bit, prefetchable) [size=32M]
I/O ports at dc00 [size=128]
Expansion ROM at 000c0000 [disabled] [size=128K]
Capabilities: [60] Power Management version 2
Capabilities: [68] MSI: Enable- Count=1/1 Maskable- 64bit+
Kernel driver in use: nouveau
Kernel modules: nvidiafb, nouveau
und beim Booten kommt dann dies hier (unten)
[ 2.884801] nouveau 0000:02:00.0: vgaarb: deactivate vga console
[ 2.884846] nouveau 0000:02:00.0: NVIDIA MCP77/MCP78 (0aa380a2)
[ 2.897089] nouveau 0000:02:00.0: bios: version 62.77.2f.00.06
[ 2.917812] nouveau 0000:02:00.0: fb: 256 MiB stolen system memory
[ 3.591489] nouveau 0000:02:00.0: DRM: VRAM: 256 MiB
[ 3.591498] nouveau 0000:02:00.0: DRM: GART: 1048576 MiB
[ 3.591502] nouveau 0000:02:00.0: DRM: TMDS table version 2.0
[ 3.591505] nouveau 0000:02:00.0: DRM: DCB version 4.0
[ 3.591508] nouveau 0000:02:00.0: DRM: DCB outp 00: 01000300 0000001e
[ 3.591511] nouveau 0000:02:00.0: DRM: DCB outp 01: 01011332 00020010
[ 3.591515] nouveau 0000:02:00.0: DRM: DCB conn 00: 00000100
[ 3.591517] nouveau 0000:02:00.0: DRM: DCB conn 01: 00001231
[ 3.595732] nouveau 0000:02:00.0: DRM: MM: using M2MF for buffer copies
[ 3.630678] nouveau 0000:02:00.0: therm: temperature (95 C) hit the 'downclock' threshold
[ 3.636579] nouveau 0000:02:00.0: DRM: allocated 1440x900 fb: 0x50000, bo (____ptrval____)
[ 3.649114] fbcon: nouveaudrmfb (fb0) is primary device
[ 3.649119] nouveau 0000:02:00.0: [drm] fb0: nouveaudrmfb frame buffer device
[ 3.684767] [drm] Initialized nouveau 1.3.1 20120801 for 0000:02:00.0 on minor 0
[ 22.297190] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084 failed with error -2
[ 22.297275] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084d failed with error -2
[ 22.297283] nouveau 0000:02:00.0: msvld: unable to load firmware data
[ 22.297293] nouveau 0000:02:00.0: msvld: init failed, -19
[ 22.380908] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084 failed with error -2
[ 22.380944] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084d failed with error -2
[ 22.380947] nouveau 0000:02:00.0: msvld: unable to load firmware data
[ 22.380953] nouveau 0000:02:00.0: msvld: init failed, -19
[ 28.428987] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084 failed with error -2
[ 28.429025] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084d failed with error -2
[ 28.429030] nouveau 0000:02:00.0: msvld: unable to load firmware data
[ 28.429036] nouveau 0000:02:00.0: msvld: init failed, -19
[ 28.495356] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084 failed with error -2
[ 28.495392] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084d failed with error -2
[ 28.495396] nouveau 0000:02:00.0: msvld: unable to load firmware data
[ 28.495402] nouveau 0000:02:00.0: msvld: init failed, -19
[ 3030.917059] nouveau 0000:02:00.0: therm: temperature (92 C) went below the 'downclock' threshold
Und mindestens ein mal ist der mir heute komplett eingefroren auf dem
Desktop. Mauscursor stand, reagiert nicht mehr auf Tastatur
(Alt-Cntrl-F1 oder Alt-Cntrl-Del). Kurz davor hatte ich ksyslog
installiert und aufgerufen, davor smb4k geöffnet und ein
Terminal-fenster noch offen in dem ich die smb.conf bearbeitet hatte.
Der Samba startete zu dem zeitpunkt nicht sondern lieferte einen
core-dump. Ich hab nach dem Ausschalten (4 Sek. Powertaste) erst
festgestellt das ich einen Eingabefehler machte. Eine IP unter
'interfaces' hatte 5 statt 4 oktetts.

Ich denke aber nicht das der mehrmalige abort mit core-dump des
smbd.service den rechner komplett einfrieren lassen dürfte. Bestenfalls
sollte das störend/Fehler-provozierend wirken meine ich.

Und die nouveau-firmware hatte ich vorher schon (nach)installiert und
danach neu gestartet. Die Erwartung war das die Firmware fehlermeldungen
dann weg wären. Brauche ich hier etwa die nvidia-treiber oder fehlt doch
noch etwas für nouveau?

Weitere Nachforschung ergab jetzt in kern.log fundstellen die ich kurz
vor dem freeze auch in ksyslog aufblitzen sah.
Jun 9 20:58:15 a6724de kernel: [20328.807574] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.807582] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.807600] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.807606] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.823563] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.823587] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.824307] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.824321] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.824341] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.824348] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.824845] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.824857] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.824876] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.824882] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.840433] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.840463] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.841174] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.841185] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.841207] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.841213] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.841709] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.841718] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:15 a6724de kernel: [20328.841741] nouveau 0000:02:00.0: gr: DATA_ERROR 00000012 [RT_LINEAR_WITH_ZETA]
Jun 9 20:58:15 a6724de kernel: [20328.841747] nouveau 0000:02:00.0: gr: 00100000 [] ch 9 [000f063000 WebKitWebProces[14610]] subc 3 class 8397 mthd 0d78 data 00000004
Jun 9 20:58:19 a6724de kernel: [20332.097499] nouveau 0000:02:00.0: Xorg[1243]: nv50cal_space: -16
Jun 9 20:58:19 a6724de kernel: [20332.129051] nouveau 0000:02:00.0: Xorg[1243]: nv50cal_space: -16
Jun 9 20:58:19 a6724de kernel: [20332.159881] nouveau 0000:02:00.0: Xorg[1243]: nv50cal_space: -16
Und die letzten drei identischen Zeilen wiederholen sich,
schätzungsweise Hundert mal. Gesehen habe ich in ksyslog aber nur die
Zeilen mit DATA ERROR, die weiteren tauchten nicht mehr auf, da muß der
Bildschirm schon eingefroren sein.

Woran kann's liegen? Kernel, firmware, webkit (also wohl Firefox?) oder
??? Ich bin einigermaßen sicher das ich keinen Firefox offen hatte, aber
Dolphin, den Dateimanager möglicherweise im Hintergrund.

Kernel ist
5.15.0-112-generic #122-Ubuntu SMP Thu May 23 07:48:21 UTC 2024 x86_64 x86_64 x86_64
Zum Zeitpunkt des Freeze waren alle pakete up-to-date lt.
aktualisierungs-verwaltung. Das war lt. log Jun 9 20:58

Bye/
/Kay
--
nix
Bernd Mayer
2024-06-09 23:04:48 UTC
Permalink
Post by Kay Martinen
Hallo.
Heute bemerke ich auf einem HP Pavilon PC (a6724de) der mit Linux mint
läuft ein Problem.
copies
[    3.630678] nouveau 0000:02:00.0: therm: temperature (95 C) hit the
'downclock' threshold
Und mindestens ein mal ist der mir heute komplett eingefroren auf dem
Desktop. Mauscursor stand, reagiert nicht mehr auf Tastatur
(Alt-Cntrl-F1 oder Alt-Cntrl-Del).
Hallo,

da würde ich zunächst den Lüfter überprüfen ob der noch läuft oder ob
der Kühlkörper voller Wollflusen ist.


Bernd Mayer
Kay Martinen
2024-06-09 23:15:24 UTC
Permalink
Post by Bernd Mayer
Post by Kay Martinen
Hallo.
Heute bemerke ich auf einem HP Pavilon PC (a6724de) der mit Linux mint
läuft ein Problem.
copies
[    3.630678] nouveau 0000:02:00.0: therm: temperature (95 C) hit
the 'downclock' threshold
Und mindestens ein mal ist der mir heute komplett eingefroren auf dem
Desktop. Mauscursor stand, reagiert nicht mehr auf Tastatur
(Alt-Cntrl-F1 oder Alt-Cntrl-Del).
Hallo,
da würde ich zunächst den Lüfter überprüfen ob der noch läuft oder ob
der Kühlkörper voller Wollflusen ist.
Hmm. Ist noch nicht so lang her das ich rein schaute aber: Keine Flusen,
Lüfter dreht und die Grafik ist Onboard.

'downclock' interpretiere ich als runtertakten. "Normal" wäre da doch
verlangsamte Grafik - aber kein Vollständiges Einfrieren das mehrere
minuten andauert. Bis ich dann neu startete - und diese Meldung wieder
kam ohne das er einfror.


Bye/
/Kay
--
nix
Bernd Mayer
2024-06-09 23:49:52 UTC
Permalink
Post by Kay Martinen
Post by Bernd Mayer
Post by Kay Martinen
Hallo.
Heute bemerke ich auf einem HP Pavilon PC (a6724de) der mit Linux
mint läuft ein Problem.
copies
[    3.630678] nouveau 0000:02:00.0: therm: temperature (95 C) hit
the 'downclock' threshold
Und mindestens ein mal ist der mir heute komplett eingefroren auf dem
Desktop. Mauscursor stand, reagiert nicht mehr auf Tastatur
(Alt-Cntrl-F1 oder Alt-Cntrl-Del).
Hallo,
da würde ich zunächst den Lüfter überprüfen ob der noch läuft oder ob
der Kühlkörper voller Wollflusen ist.
Hmm. Ist noch nicht so lang her das ich rein schaute aber: Keine Flusen,
Lüfter dreht und die Grafik ist Onboard.
'downclock' interpretiere ich als runtertakten. "Normal" wäre da doch
verlangsamte Grafik - aber kein Vollständiges Einfrieren das mehrere
minuten andauert. Bis ich dann neu startete - und diese Meldung wieder
kam ohne das er einfror.
Hallo,

ja - aber wenn der beim Booten schon Kochtemperaturen anzeigt, das finde
ich eigenartig.

Hier hatte ich letzte Woche auch mit einem uralten Pavilion
herumgespielt, da werden bei ruhigem Standardbetrieb mit sensors oder
inxi weniger als 40 °C angezeigt. Bei anderen PCs ähnljch.
Solide Geräte sind das wohl schon, das Gehäuse ist superstabil und drin
war ein Intel Core 2 Duo E6400 mit 2* 512 MB DDR2.

Der Sensor zur Temperaturmessung kann sich auch ablösen, oder Kabel
können den Lüfter stören.
Fehler beim Firmwareupdate sind natürlich auch möglich.

Dein Pavilion hat wohl auch DDR2 und ist daher recht alt, da können
allerhand Defekte auftreten.


Bernd Mayer
Bernd Mayer
2024-06-09 23:57:38 UTC
Permalink
Post by Bernd Mayer
ja - aber wenn der beim Booten schon Kochtemperaturen anzeigt, das finde
ich eigenartig.
Dein Pavilion hat wohl auch DDR2 und ist daher recht alt, da können
allerhand Defekte auftreten.
Nachtrag:

ist die integrierte Grafik in der CPU oder ist das ein Chip auf dem
Motherboard oder gar eine Steckkarte?


Bernd Mayer
Marco Moock
2024-06-10 05:07:10 UTC
Permalink
[ 3030.917059] nouveau 0000:02:00.0: therm: temperature (92 C) went
below the 'downclock' threshold
Das ist das erste Problem. Identifiziere den Chip (oft in der
Northbridge) und prüfe, wie du den besser kühlen kannst. Ggf. ist der
nur passiv gekühlt, dann setze oben einen Lüfter drauf. Es kann aber
auch sein, dass die Wärmeleitpaste vertrocknet ist oder der Kühler
nicht mehr auf dem Chip haftet.

Solange das Teil so heiß wird, wird es aber definitiv Schutzmaßnahmen
geben und ggf. ist die dann, den Chip ganz abzuschalten.
--
Gruß
Marco

Spam und Werbung bitte an
***@nirvana.admins.ws
Bernd Mayer
2024-06-10 06:48:27 UTC
Permalink
Post by Marco Moock
[ 3030.917059] nouveau 0000:02:00.0: therm: temperature (92 C) went
below the 'downclock' threshold
Das ist das erste Problem. Identifiziere den Chip (oft in der
Northbridge) und prüfe, wie du den besser kühlen kannst. Ggf. ist der
nur passiv gekühlt, dann setze oben einen Lüfter drauf. Es kann aber
auch sein, dass die Wärmeleitpaste vertrocknet ist oder der Kühler
nicht mehr auf dem Chip haftet.
Solange das Teil so heiß wird, wird es aber definitiv Schutzmaßnahmen
geben und ggf. ist die dann, den Chip ganz abzuschalten.
Hallo,

laut https://www.techpowerup.com/gpu-specs/geforce-9100.c2049
hat der Geforce 9100 eine TDP von 40 W, da reicht passive Kühlung
sicherlich nicht.


Bernd Mayer
Marc Haber
2024-06-10 06:49:11 UTC
Permalink
[ 28.429025] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084d failed with error -2
-2 ist "file not found". Ist die Datei (und die anderen mit dieser
Meldung) da?

Grüße
Marc
--
----------------------------------------------------------------------------
Marc Haber | " Questions are the | Mailadresse im Header
Rhein-Neckar, DE | Beginning of Wisdom " |
Nordisch by Nature | Lt. Worf, TNG "Rightful Heir" | Fon: *49 6224 1600402
Kay Martinen
2024-06-10 08:13:17 UTC
Permalink
Post by Marc Haber
[ 28.429025] nouveau 0000:02:00.0: Direct firmware load for nouveau/nvaa_fuc084d failed with error -2
-2 ist "file not found". Ist die Datei (und die anderen mit dieser
Meldung) da?
Dazu muß ich erst mal wissen wo genau da welche dateien erwartet würden.
Wenn das nur eine im /lib zweig ist werde ich die wohl leicht finden
können. oder ist /nvaa auch ein dateiname in der meldung? Wirkt so weil
mehrere nennungen.

Ich habe nach nouveau in aptitude gesucht und das firmware-paket
installiert. Fehler sind mir dabei nicht aufgefallen aber danach müsste
ich ebenfalls erst suchen, frühestens heute abend.

Hat diese fehlende firmware eigentlich Powermanagement Funktionen? Wäre
doch möglich das deren Fehlen die inaktiviert und daher auch die
Temperaturmeldungen kommen.

Bye/
/Kay
--
nix
Loading...