Mise à jour des drivers NVIDIA
Informations générales
Décrivez l'environnement affecté par le problème
- Système/Cluster : CAIUS
- Système d'exploitation et version : Red Hat Enterprise Linux release 8.7
- Logiciel/Bibliothèque affectée : Driver Nvidia
- Méthode d'installation (package manager, installation manuelle, etc....) : Recette Ansible (https://git.unistra.fr/HPC/ansible)
Si applicable, fournissez des détails supplémentaires
La mise à jour des drivers NVIDIA pour les GPUs se faisait via une recette Ansible qui utilisait une version du driver téléchargeée depuis le site de Nvidia.
La méthode de distribution des drivers a changé et passe maintenant par un dépôt distant et dnf (https://docs.nvidia.com/datacenter/tesla/driver-installation-guide :
dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/$distro/$arch/cuda-$distro.repo
dnf module install nvidia-driver:open-dkms
Il faut mettre à jour la recette pour prendre en compte cette nouvelle méthode de distribution mais aussi améliorer un peu certains points (notamment la gestion des nœuds qui ne sont pas IDLE au moment de la mise à jour).