Noyau linux-libre 5.16-3 failed

27 respostas [Última entrada]
riquet607
Desconectado
Joined: 02/01/2018

Bonjour ou bonsoir, le système m'a proposé d'installer la mise à jour du noyau linux-libre 5.16-3 : ce que j'ai accepté. Après redémarrage le système se lance mais de façon très lente. En recovery mode le système indique (de mémoire) "a start job is running Network..." avec dans un premier temps un chronométrage de 1:30 puis dans un second temps un chrono de 2:35, etc... Dans l'attente d'une résolution, je suis revenu sur linux-libre 5.16-2. J'aimerais savoir si quelqu'un d'autre a constaté ce problème. Merci.

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Ici, sur Debian 11, cette dernière version du noyau Linux-libre (prise sur le dépôt de Jxself) m’a mené au genre d’erreur qui fait regretter de ne pas avoir fait de sauvegarde juste avant : le système de fichiers (XFS) de a partition /home ne montait pas. Comme toi j’ai d’abord tout simplement essayé de démarrer la version précédente (5.16.2-gnu) et ça roule. Je vais écrire à Jason.

riquet607
Desconectado
Joined: 02/01/2018

J'en prends bonne note, merci

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Pour aider le diagnostic, j’aimerais savoir si tu as un système de fichiers de type XFS qui est automatiquement monté au démarrage. Tu peux par exemple montrer la sortie cette commande depuis le système fonctionnel :
$ lsblk -f

XFS est le type de système de fichiers que choisit par défaut l’installateur Trisquel pour /home. Aussi, as-tu attendu que le redémarrage te mène à un prompt, c’est-à-dire à un "#" après lequel tu peux entrer des commandes ? C'est que j’ai de mon côté laissé le démarrage se poursuivre jusqu’à un tel prompt, que j’ai reçu un message d’erreur indiquant l’impossibilité de monter /home (aussi du type XFS sur mon système) et qu’en essayant monter /home à la main depuis ce prompt, la commande semblait geler le système.

riquet607
Desconectado
Joined: 02/01/2018

voici le résultat
eric@eric-UX305CA:~$ lsblk -f
NAME FSTYPE LABEL UUID MOUNTPOINT
sda
├─sda1 ext4 6acd6f0e-87ba-47b4-8987-6413ff05bd6b /
└─sda5 xfs d2c56a09-8c08-4ce5-a071-84563fa76724 /home
eric@eric-UX305CA:~$
Pour répondre à ta question, je suis arrivé à un login (ligne de commande) à une seule reprise, le reste du temps (après plusieurs boot), l'affichage du symbole Trisquel au centre du fond d'écran apparaît puis une long minute après la barre des tâches est apparue mais l'écran reste figé, sans action avec le pointeur de la souris. Je ne suis jamais allé en vérité aussi loin dans la phase de démarrage : je vais donc redémarrer sur le noyau défectueux et je reviendrai poster les résultats

riquet607
Desconectado
Joined: 02/01/2018

bien, j n'ai pu malheureusement reproduire mon problème. Il semblerait que le boot lance un nettoyage de /dev/sda1 (de mémoire, les messages suivants) :

/dev/sda1 : clean
A start job is running for Network Name Resolution [6:35 sur 7:40] /dev/sda1 clean avec blocksize
A start job is running for Network Time Synchronization [6:35 sur 7:40] /dev/sda1 clean avec blocksize
Failed to start Network Resolution
Failed to start Network Synchronization
see 'systemctl status systemd-resolved-service' for details
see 'systemctl status systemd-timesyncd-service' for details

A ce moment-là (c'est-à-dire après une attente de plus de 10 minutes), j'ai stoppé le processus de démarrage.

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Rien qui ait donc l’air d’être lié au montage de ton /home (effectivement en XFS). Jxself dit qu’il n’a, de son côté, rien changé depuis la version 5.16.2, que la version 5.16.4 devrait arriver dans son dépôt aujourd’hui et que nous allons donc voir si elle résout nos problèmes.

riquet607
Desconectado
Joined: 02/01/2018

Nous verrons bien, en effet... merci néanmoins pour ta réactivé et celle de Jxself. ;)

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Si tu veux déjà tester la version qui sera bientôt dans son dépôt : https://jxself.org/kernel-testing/linux-image-5.16.4-gnu_5.16.4-gnu-1.0_amd64.deb

De mon côté, je suis resté bloqué sur Plymouth. Je n’ai attendu qu’une dizaine de minutes cette fois et ni Esc ni Ctrl+Alt+F1 me donnait un terminal. Le « recovery mode » semble démarrer normalement (avec /home monté), rien n'a attiré mon attention dans la sortie de journalctl -xb, et je ne suis pas parvenu à redémarrer normalement : après de nombreuses secondes, la commande reboot m’a rendu la main, sans imprimer quoi que soit; systemctl reboot m’a montré plusieurs erreurs, demandé de vérifier le statut de reboot.target et ne semblait jamais terminer.

riquet607
Desconectado
Joined: 02/01/2018

Je viens à l'instant de télécharger et d'installer la 5.16.4 et je me retrouve dans la même situation que toi. Je suis à nouveau revenu sur la 5.16.2 (sans attendre 10 minutes), en attendant mieux.

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Pour trouver le commit précis ayant introduit le problème, la recherche par dichotomie s’applique. Jxself compile des noyaux que je teste. Nous en sommes à la troisième itération, donc à 2³ = 8 fois moins de commits parmi lesquels chercher. Selon jxself, neuf itérations au total devraient être suffisantes (je suppose donc que, sauf erreur de sa part, il y a eu un peu plus de 2⁹ = 512 commits entre la version 5.16.2 e 5.16.3).

Comme nous faisons probablement face au même problème, https://jxself.org/kernel-testing/linux-image-5.16.2-1a4cefba5cb2fc9d74e859b2e8b21fac97e5563-gnu_1a4cefba5cb2fc9d74e859b2e8b21fac97e5563_amd64.deb devrait fonctionner chez toi alors que https://jxself.org/kernel-testing/linux-image-5.16.2-8423ec05aff2b41ca657e56fb3dd7ca0da566cb1-gnu_8423ec05aff2b41ca657e56fb3dd7ca0da566cb1_amd64.deb non (si tu veux tester pour confirmer). Il s’agit de notre intervalle actuel.

EDIT : à la quatrième itération, https://jxself.org/kernel-testing/linux-image-5.16.2-96d936e9c05c7e8864ff9cc928a2d5c19f0ac3c3-gnu_96d936e9c05c7e8864ff9cc928a2d5c19f0ac3c3_amd64.deb na marche pas ici (et probablement chez toi) et https://jxself.org/kernel-testing/linux-image-5.16.2-1a4cefba5cb2fc9d74e859b2e8b21fac97e5563-gnu_1a4cefba5cb2fc9d74e859b2e8b21fac97e5563_amd64.deb demeure donc la version avec le plus de commits qui fonctionne.

riquet607
Desconectado
Joined: 02/01/2018

Je viens de découvrir ton message il y a quelques minutes et je me trouve dans le même cas de figure que toi.

eric@eric-UX305CA:~$
eric@eric-UX305CA:~$ uname -r
5.16.2-1a4cefba5cb2fc9d74e859b2e8b21fac97e5563-gnu
eric@eric-UX305CA:~$

Je n'ai par contre pas testé à la 4ème itération : ce que je m'empresse de faire...

riquet607
Desconectado
Joined: 02/01/2018

... voilà, c'est fait et effectivement cela ne fonctionne pas.

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

J’ai fait par à jxself de tes tests. Comme je lui ai écrit, nous souffrons très probablement du même problème et je trouverais étonnant qu’il affecte Linux (c’est-à-dire pas seulement Linux-libre) : quelle est la probabilité que deux utilisateurs de Trisquel souffre d’un même problème critique (qui ne semble donc pas rare) qui existerait dans le bien-plus-utilisé Linux (avec les blobs) mais qui n’aurait pas été rapporté entre les version 5.16.3 et 5.16.4 ? Peut-être que le commit que nous allons identifier a accidentellement déclenché une modification délétère par le script de deblob...

Si tu veux continuer, parmi les noyaux que j’ai testés, celui avec le plus de commits qui fonctionne ici est https://jxself.org/kernel-testing/linux-image-5.16.2-1a88b7960a3c3b71c1f5071a299a132e41ade25-gnu_1a88b7960a3c3b71c1f5071a299a132e41ade25_amd64.deb et celui avec le moins de commits qui ne fonctionne pas ici est https://jxself.org/kernel-testing/linux-image-5.16.2-2ee1f537cfb838fb1b4c080c3edf8989151f47db-gnu_2ee1f537cfb838fb1b4c080c3edf8989151f47db_amd64.deb

riquet607
Desconectado
Joined: 02/01/2018

Le résultat des tests est identique :

eric@eric-UX305CA:~$
eric@eric-UX305CA:~$ uname -r
5.16.2-1a88b7960a3c3b71c1f5071a299a132e41ade25-gnu
eric@eric-UX305CA:~$
eric@eric-UX305CA:~$

riquet607
Desconectado
Joined: 02/01/2018

Comprenons-nous bien ! Je tiens à dire ici que nous parlons bien de Trisquel 9.0.1 (ne l'ayant pas précisé au préalable) et non de Trisquel 10.0.
Mais peut-être n'y a t-il aucune incidence ?

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Non, aucune : le noyau démarre avant le reste de la distribution. D'ailleurs je suis de mon côté sur Debian 11.

riquet607
Desconectado
Joined: 02/01/2018

Ça ne fonctionne toujours pas avec le kernel 5.16.5.
Est-il bien nécessaire de continuer ? La question se pause d'autant plus que Trisquel 10.0 est maintenant disponible.
La réponse est Oui, si le problème se produit sur la version 10.
La réponse est Non, car je suis passé sur le noyau de Jason Self (selon les recommandations de Magic) pour un problème matériel (à savoir des déconnexions intempestives et aléatoires du wifi via un dongle) et que celui-ci est peut-être résolu sous T10.
Je prendrai définitivement une décision lorsque j'aurai testé mon matos sous la nouvelle distribution.
Je suis à votre écoute...

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Est-il bien nécessaire de continuer ?

Ce que nous cherchons à faire est d’identifier le problème précis pour le corriger.

La réponse est Non, car je suis passé sur le noyau de Jason Self (selon les recommandations de Magic) pour un problème matériel (à savoir des déconnexions intempestives et aléatoires du wifi via un dongle) et que celui-ci est peut-être résolu sous T10.

Si avec Linux-libre 5.4, par défaut dans Trisquel 10, tu souffres de nouveau de connexions intempestives, tu peux passer à la version 5.8 ou 5.13, toutes deux disponibles dans le dépôt de Trisquel 10. Si ce n’est pas suffisant, tu peux installer le paquet linux-libre-5.15 (supporté jusqu’en octobre 2027) du dépôt de jxself.

Bref, à moins que seules les premières versions de Linux-libre 5.16 résolvent tes connexions intempestives, tu n’as pas de soucis à te faire : ton matériel fonctionnera bien dans les prochaines années. Néanmoins, il est bon pour tout le monde de corriger les problèmes dans Linux-libre.

riquet607
Desconectado
Joined: 02/01/2018

Malgré ce que j'ai dit dans le précédent post, ma décision ne sera pas définitive. Pourquoi ? Bien que mon matériel semble fonctionner correctement sous T10, notamment le wifi, il est plus judicieux pour ne pas dire souhaitable de continuer à tester (pour ma part de façon modeste) grâce à toi Magic les différentes compilations du kernel par Jxself. Et puisque j'ai soumis cette publication autant continuer, n'est-ce pas ? Je reste donc à votre écoute. Merci.

riquet607
Desconectado
Joined: 02/01/2018

Désolé Magic j'ai appuyé par inadvertance sur la touche + puis - sur le post #18

tu écris "...Néanmoins, il est bon pour tout le monde de corriger les problèmes dans Linux-libre." : nous sommes bien d'accord

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Ayant maintenant testé dix noyaux, jxself (qui fait essentiellement tout le travail) et moi devrions avoir trouvé le commit coupable (sauf erreur, probable, dans l'application manuelle de la recherche dichotomique; jxself ne m'a pas annoncé qu'il s'agissait du dernier noyau) : https://jxself.org/kernel-testing/linux-image-5.16.2-62db28fbfaff6a40d150aeb56d9c4f22c92328b-gnu_62db28fbfaff6a40d150aeb56d9c4f22c92328b_amd64.deb serait le noyau avec le plus de commits qui démarre sans problème apparent et https://jxself.org/kernel-testing/linux-image-5.16.2-6b5ad4bd0d78fef6bbe0ecdf96e09237c9c52cc1-gnu_6b5ad4bd0d78fef6bbe0ecdf96e09237c9c52cc1_amd64.deb aurait un seul commit en plus qui nous bloque. Si tu veux vérifier sur ton système...

riquet607
Desconectado
Joined: 02/01/2018

résultat des tests : le kernel avec un seul commit en plus bloque effectivement, l'autre non.

eric@eric-UX305CA:~$
eric@eric-UX305CA:~$ uname -r
5.16.2-62db28fbfaff6a40d150aeb56d9c4f22c92328b-gnu
eric@eric-UX305CA:~$

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Merci pour le retour. Jxself pense avoir identifié le module coupable : iwlwifi. En le blacklistant, le dernier noyau Linux-libre, version 5.16.5, fonctionne ici. Jxself aimerait que tu testes aussi. Pour cela, écris "blacklist iwlwifi" dans /etc/modprobe.d/blacklist.conf:
$ echo blacklist iwlwifi | sudo tee -a /etc/modprobe.d/blacklist.conf
Installe aussi linux-libre ou linux-libre-5.16, dans le dépôt de jxself. Je ne suis pas certain qu’il faille mettre à jour l’initramfs mais je l’ai fait :
$ sudo update-initramfs -u
Tu peux ensuite redémarrer et voir Linux-libre 5.16 démarre.

Est-ce que, comme moi, tu as une carte Wi-Fi avec un chipset Intel (vois la sortie de lspci si tu ne sais pas) et que tu utilises un dongle qui ne nécessite pas de micrologiciel privateur ? Si c’est le cas, blacklister iwlwifi ne te fera pas perdre ta connexion Wi-Fi fonctionnelle, parce que iwlwifi est spécifique aux chipsets Intel.

Il semblerait que le problème vienne réellement de Linux (avec les blobs). En effet, jxself m’a mis à disposition https://jxself.org/kernel-upstream/linux-image-5.16.2-6b5ad4bd0d78fef6bbe0ecdf96e09237c9c52cc1_6b5ad4bd0d78fef6bbe0ecdf96e09237c9c52cc1_amd64.deb et, sans blacklister iwlwifi, ce noyau avec blobs (à utiliser pour corriger le problème seulement !) ne démarre pas non plus. Si tu veux essayer aussi…

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Jxself a déjà retiré ce noyau avec des blobs, signalé la régression en amont avec https://lore.kernel.org/stable/20220203161959.3edf1d6e@valencia/T/#u et reconstruit le paquet DEB de Linux-libre 5.16.5, cette fois sans iwlwifi. Tu peux donc revenir à la dernière version si tu le souhaites (ou t’en tenir à une version LTS pour éviter à l’avenir ce genre d’aventure).

riquet607
Desconectado
Joined: 02/01/2018

J'ai besoin pour cela de la dernière version reconstruite par Jxself (celle dont je dispose m'a été proposée automatiquement le 2 février par le gestionnaire de MAJ).
oups, je n'ai pas lu ton premier message (désolé) : je m'empresse de le faire... et pour répondre à ta question : oui j'ai bien une carte wifi avec chipset INTEL et un dongle qui n'utilise pas un micrologiciel privateur.

riquet607
Desconectado
Joined: 02/01/2018

Après avoir blacklister iwlwifi, le boot sur le kernel 5.16.5 fonctionne : merci à tous les deux.
eric@eric-UX305CA:~$
eric@eric-UX305CA:~$ uname -r
5.16.5-gnu
eric@eric-UX305CA:~$

Magic Banana

I am a member!

I am a translator!

Desconectado
Joined: 07/24/2010

Merci à toi aussi pour les tests. Il y a maintenant des réponses à https://lore.kernel.org/stable/20220203161959.3edf1d6e@valencia/T/#u