DFS en rade
Par nateurs et découvertes - Lien permanent
J'ai faim !
Moi, bloqué sur un serveur.
Des fois, il faut vraiment mériter son salaire : s'il est vrai que je suis dans une structure où on ne croule pas toujours sous une charge de travail digne d'une chaîne de montage, il arrive parfois que la réalité se rappelle à votre bon vouloir. Ça a été mon cas hier.
Je dis "mon", mais nous étions quatre sur le coup. Pour un problème étrange et atypique. C'est d'ailleurs pour ça qu'il nous a posé problème, le saligaud ! Pas un message d'erreur, pas une indication, un problème fantôme. Si ce n'est que les trois quarts des stations (donc plusieurs centaines, quand même) se mettaient brutalement à bouffer la totalité de leur ressources et à ne plus répondre à rien...
Et nous avons passé la journée là dessus, moins dix minutes pour deux de mes collègues, histoire quand même d'aller acheter quelque tartines... Le problème apparu vers 10h n'a été vaincu que vers 17h, et encore : nous ne sommes pas sûrs de ce qu'il s'est passé, même si nous avons quelques pistes.
Sans compter qu'il a fallu du coup aujourd'hui s'atteler aujourd'hui à un problème tout aussi important : gérer les réactions des utilisateurs, et je vous assure que ce n'est pas forcément le plus facile après presque une journée d'immobilisation informatique. Du coup, il est arrivé quelque chose d'incroyable : un communiqué écrit conjointement par mon chef et moi , notre première vraie collaboration, puisqu'il est plutôt solitaire au niveau du boulot et que n'avons pas toujours été les meilleurs amis du monde. Bon d'accord, en réalité, je l'ai écrit et il l'a affiné, mais quand même, c'est incroyab' !
C'est tellement incroyab' que je vous le balance aussi sec, hop !
Lundi, le 5 avril, le fonctionnement d'un certain nombre des pc sur le réseau a été perturbé entre 10h et 17h. Le problème se manifestait lors qu'un utilisateur essayait de se logger ou d'ouvrir un document dans l'Espace Public.
L'augmentation énorme de la quantité des données informatiques (documents, e-mails, systèmes d'informations, websites, ...) demande des solutions techniques complexes. L'une d'entre elles implique une couche supplémentaire entre le système de fichier physique et le système de fichier réseau ("Distributed File System", protocole qui permet de désigner des ressources disponibles sur un réseau en faisant abstraction de la localisation physique de celles-ci). C'est une défaillance d'un composant de cette couche qui semble avoir provoqué l'incident arrivé hier, les stations de travail épuisant leurs ressources à essayer de décoder des informations erronées.
La résolution a malheureusement été rendue très délicate d'une part par l'absence d'indicateur d'erreur spécifique, et ce à quelque niveau des systèmes que ce soit, d'autre part par l'aspect ponctuel de cette erreur qui ne correspondait à rien de référencé. Au départ, nous avons même pensé qu'un virus informatique serait à l'origine de cet incident.
Si le même incident venait à se reproduire, la résolution (au niveau des serveurs, aucune action n'étant à entreprendre sur les stations de travail) prendrait beaucoup moins de temps.
Merci de votre compréhension.
La prochaine fois, je vous parlerai d'ailleurs, peut-être.