0.05% d'indisponibilité
Par nateurs et découvertes - Lien permanent
Dieu est tellement intelligent ... Beaucoup plus que les gagnants des jeux TV !
Little Nicky
Bon, GMail s'est viandé, cette nuit (pour nous), pendant deux heures. C'est horrible.
Je vais passer très vite sur tous ces gens qui râlent parce que le service qu'on leur offre gracieusement depuis des années tombe en panne deux heures tous les six mois, et qui fonctionne donc, suivant un mode de calcul qui en vaut bien un autre, 4378 heures sur 4380. Dit autrement : 99.95% du temps. Oui, c'est proprement honteux. Au prix où on ne le paie pas, ma bonne dame. (Et puis merde, vous n'avez qu'à activer l'IMAP.)
Non, ce qui m'énerve, c'est que je vois les gens réagir comme j'en vois d'autres réagir quand un des systèmes dont je m'occupe a une indisponibilité de quelques dizaines de minutes une fois tous les quatre ans : Mais comment est-ce possiiiiiible ? Mais pourquoi ne t'es tu pas arrangé pour que ça n'arrive paaaas ? Et il faut absolument que tu te débrouilles pour qu'une telle indisponibilité ne se reproduise jamais !
Ben tiens.
D'abord, merci aux utilisateurs de signaler aux administrateurs qu'ils doivent résoudre le problème. Non, je vous assure, sans vous, nous n'y aurions jamais pensé. Et puis pourquoi est-ce qu'on ne s'est pas arrangé pour que ça n'arrive pas ? Figurez-vous -je sais, ça peut paraître étonnant- que le propre d'un problème imprévu est d'être imprévu. Pourquoi est-ce que ça arrive ? Parce que les circonstances ont entraîné un enchaînement qui n'avait pas été imaginé.
Oui, c'est difficile d'admettre que nous autres, les sysadmins, ne sommes pas omniscients. J'en souffre, croyez-le bien. Il y a effectivement parfois des cas imprévus. Mais au risque d'encore une fois étonner, quand un cas n'est pas prévu, ce n'est pas parce que nous sommes totalement irresponsables et ne cherchons pas à imaginer ce qui pourrait merder, mais parce qu'à côté des mille problèmes possibles que nous avions imaginés et pris en compte, il y a toujours le mille et unième qui se cachait dans un coin.
Et c'est ça, un système qui se plante : ce n'est pas un système qui rencontre son premier problème, c'est un système qui a rencontré mille problèmes que vous n'avez pas vus parce que nous les avions gérés en amont. C'est gentil de penser à râler quand vous perdez un accès pendant deux heures sans jamais avoir la moindre pensée pour le travail que ça représente de le faire tourner le système comme une horloge pendant des mois.
Quant à s'arranger pour que ça n'arrive plus, merci encore une fois, nous n'y aurions pas pensé sans vous. La plupart du temps, quand ce conseil nous est doctement dispensé par des personnes qui se font un plaisir de nous apprendre notre métier, figurez-vous que le problème qui vient d'arriver est déjà non seulement résolu, mais que tout a été mis en œuvre pour qu'il soit géré automatiquement la prochaine fois qu'il montrera le bout de son nez.. Nous sommes maintenant prêts à gérer mille et un problèmes.
Mais il y aura toujours le mille et deuxième.
Commentaires
J'en connais deux ou trois, à l'usine, qui devrait lire et méditer ce billet !
C'est inadmissible.
Tu as un métier passionnant.
Mon pépère,
T'es bien gentil de passer rapidement sur les gens qui râlent, mais permets-moi quand même d'y revenir deux minutes : 1) c'est pas nous qu'on a appelé Google en lui disant "hé ! fais-nous un mail gratos ! Ça fait des années qu'on en rêve !". C'est bien Google qui est venu nous tirer par la manche en sautillant, comme quoi il avait inventé une solution mail super, et en nous demandant d'envoyer des invitations à nos amis. On veut devenir le maître du monde ou on veut pas. Si on veut, faut assumer ses ambitions. 2) Ce service n'est pas gratuit DU TOUT. Il collecte des informations sur nos messages et nous inflige une interminable colonne de pub pour se payer. C'est une contrainte que nous acceptons, mais qui n'en demeure pas moins une concession de notre part, en échange du service qu'il nous rend. Le contrat est donc bien bilatéral. 3) Je m'en fous que les serveurs de Google plantent, je peux comprendre que ce soient des choses qui arrivent. Mais je voudrais juste qu'il ait l'honnêteté de le reconnaître, à la manière de Bloglines, l'agrégateur en ligne que j'utilisais autrefois : "désolé, les mecs, on a un problème, on essaie de le résoudre". Ce qui m'a prodigieusement gonflé, cette nuit, c'est le "Please try again in 30 seconds". Ça, c'est vraiment du foutage de gueule.
Par ailleurs, je vais être très désagréable, sans doute, mais quand tu dis "C'est gentil de penser à râler quand vous perdez un accès pendant deux heures sans jamais avoir la moindre pensée pour le travail que ça représente de le faire tourner le système comme une horloge pendant des mois.", je suis tout à fait d'accord (avec le premier degré, je veux dire). Franchement, je m'en bats les flancs, du travail que ça représente pour les gentils sysadmins de Google. J'espère pour eux qu'ils sont bien payés, qu'ils ont une bonne couverture sociale et une bonne retraite, mais c'est à peu près toute la compassion que j'ai pour eux. Parce que quand je râle, ce n'est pas après eux que j'en ai, c'est après leur employeur : si ça merde, c'est qu'ils n'étaient pas assez nombreux, donc que Google a merdé. Il se gave de pognon sur notre dos (et je parle au sens propre, j'ai été client de Google AdSense), il peut bien payer quelques dizaines (quelques centaines, j'en sais rien) de salariés en plus pour éviter les emmerdes. Idem avec Orange, qui me prive de connexion pendant une à deux heures plusieurs fois par semaine : je me fous de savoir le boulot que ça représente pour les techniciens et la dose de stress qu'ils ramènent chez eux à la maison. Ce qui m'intéresse, c'est qu'ils ne sont visiblement pas assez nombreux pour gérer tout le merdier, et je me sens parfaitement autorisé à râler après ça.
"c'est qu'ils ne sont visiblement pas assez nombreux pour gérer tout le merdier"
si c'est le merdier, c'est peut être aussi parce qu'ils sont trop nombreux.
Ouaip ! Tout n'est qu'une question de quantité et de fric ! Comme la cuillère, l'imprévu n'existe pas ! Je vais pouvoir aller me coucher soulagé. \o/
Nan mais sérieusement, Chacal, il y a des moments où tu es tout de même très con, hein. :)
nico, on voit que tu ne connais pas les coulisses d'Orange et es resté sur des idées reçues qui datent sacrément. Trop nombreux ? Tu devrais réactualiser tes sources.
J'ai eu récemment un pb récurent et étrange sur ma ligne ADSL et ai pris 5 minutes de leur temps en fin d'intervention pour discuter avec les techniciens qui sont venus remettre aux normes mon installation... Je confirme leur stress et leur mal-être actuel.
Mirovinben> De techniciens pas assez nombreux, c'est une plaie (surtout en ce qui concerne les interventions physiques.) Des sysadmins trop nombreux, ça en est une encore pire.
LeChieur> On a bien compris que ça t'avait énervé. Tu devrais passer à Caramail.
Un peu plus sérieusement, imaginons que j'ai la charge d'un système, que je me dise
Bon, le jour où il y a un vrai problème, l'abruti qui vient me sortir que la priorité, c'est modifier ce message, je lui pète les dents.Et vraiment, l'idée que plus il y a de gens derrière, mieux ça tourne, c'est en ce qui concerne l'administration système une contre vérité totale. Et l'imprévu n'engage pas la compétence de l'équipe d'administration. C'est un peu comme si je disais que tous les conducteurs qui ont des accidents sont en tort. Un mec t'a grillé la priorité et t'est rentré dedans ? C'est sans doute que tu n'étais pas assez attentif à la route, sinon tu l'aurais vu, tu penses.
Pendant des années dans ce boulot que j'avais et que j'en étais venue à ne plus supporter et où j'ai fait par période l'administratrice de bases de données, j'ai souffert de cette sorte de calamité qui fait que la plupart du temps quand tout fonctionne notre boulot est transparent et qu'il ne devient visible qu'en cas de plantage.
Les utilisateurs et où j'étais les hiérarchiques (beaucoup n'étaient pas issu de métier de l'informatique mais juste "managers" et financiers) n'imaginaient pas que s'ils pouvaient consulter ou réactualiser leurs données tous les jours c'est que derrière on marnait. Et comme tu le décris si bien, à la moindre plantouille ils se souvenaient soudain de notre existence pour dire Vous ne faites rien.
Et je ne parle pas de la pure mauvaise foi de ceux qui par une manip hasardeuse étaient eux-même la cause d'une panne, entre autre pendant certaines phases de test où l'on avait pourtant prévenu d'une relative fragilité ... et trouvaient moyen de nous engueuler (je n'ai jamais osé rétorquer, Désolés on n'imaginait pas qu'on aurait des utilisateurs si stupides et sans respect)
PS : @Le Chieur : J'aime beaucoup gmail qui est venu nous chercher en sautillant
(toc, toc... je passe dans les couloirs... distribution de fléchettes... vous en voulez ? :-) )
(bon, pour de vrai, continuez à débattre, c'est super : je me pose plein de questions et j'apprends plein de trucs. Merci ! )
@ LeChieur .
Je pense que tu n'as pas tout dit ...laisse-toi aller ..parle, n'occulte pas !
non mais quel chieur...
@ LeChieur > et un vrai champion de la mauvaise foi, ça boude pas, ça argumente ;-p
"nico, on voit que tu ne connais pas les coulisses d'Orange et es resté sur des idées reçues qui datent sacrément. Trop nombreux ? Tu devrais réactualiser tes sources."
Mince alors, j'ai été démasqué... Je m'incline devant une telle clairvoyance.
Sysadmin > Je ne boude pas, j'ai aussi une vie professionnelle bien remplie, parfois.
Xave > ton empathie corporatiste avec nos amis de Mountain View fait chaud au cœur. On va la refaire autrement, en filant ta métaphore de l'accident de la route : si tous les feux de Bruxelles sont victimes d'un bug et passent au rouge au même temps, provoquant ainsi un embouteillage qui te bloquera deux heures dans ta bagnole, tu râleras. Et pourtant, tu y penses combien de fois par jour, aux gentils employés de la voirie qui s'occupent quotidiennement du bouzin pour que ça n'arrive pas ?
Je le répète, pour toi et pour Pep, je n'ai absolument rien contre l'imprévu (bien au contraire, il y a plein de circonstances où ça pimente la vie), et je n'exige pas des sysadmins qu'ils soient omniscients. Je veux juste qu'ils arrêtent de se foutre de ma gueule avec leur "revenez dans 30 secondes" que je persiste à trouver particulièrement arrogant. J'ai bien compris que le message d'erreur n'était pas la priorité du MacGyver de l'administration système, qui est bien trop occupé à réparer le serveur avec ses dents tout en empêchant l'immeuble de s'effondrer avec ses mains pour perdre du temps à informer ces cons d'utilisateurs. N'empêche : chez Bloglines, il y avait (il y a peut-être encore, je n'en sais rien) un message d'erreur marrant, qui ne se prenait pas au sérieux, et qui reconnaissait qu'ils étaient dans la panade. Ce n'est pas grand-chose à prévoir, et ça dédramatise tout. Là, du coup, l'utilisateur compatit avec les gars qui ont les mains dans le cambouis, et se dit qu'il reviendra tranquillement plus tard. L'autre option, c'était de faire un petit message rassurant, a posteriori : "coucou, on a réparé le problème, vous pouvez de nouveau utiliser votre messagerie". Dans les deux cas, ça s'appelle de la communication, ça relie les gens et ça rend de nombreux services. N'entretiens pas le cliché qui fait des tous les informaticiens des handicapés de la sociabilité.
de* tous les informaticiens, of course.
Ah ben tu serais surpris, du nombre de fois où je pense à tout ce qu'il y a derrière les systèmes (presque) automatiques. L'exemple des feux est bien choisi parce que justement, tout petit, je me posais d'énormes questions quant à l'infrastructure et aux gens qu'il y avait derrière.
Maintenant, désolé, je dois effectivement être handicapé social, parce que je ne réussis pas à me sentir agressé par un message automatique. Et je préfère me retrouver en face d'un message qui part du principe que la panne est exceptionnelle que d'un message kikoolol qui dit "Oh ben c'est encore planté !"
Maintenant, si tu veux une communication pour dire un et l'autre existent.
et L'Je ne serais pas surpris de voir l'ami Chacal revenir râler pour se plaindre de ces deux messages pas drôles du tout et en anglais... :)
Ah. Et puis :
http://twitter.com/google/status/36...
http://twitter.com/google/status/36...
http://twitter.com/google/status/36...
http://twitter.com/google/status/37...
Après, c'est sûr qu'un message à la Technorati (oui, désolé, je n'ai pas de souvenir de celui de Bloglines) peut faire sourire... une fois. Mais quand tu te le prends quasiment tous les 15 jours, ça lasse. :-p
Xave > Pour l'informatique, démerde-toi ; mais pour les feux (ainsi que les panneaux d'autoroute foireux qui disent "bouchon à 5 km" alors que tu es en plein dedans...), si tu veux assouvir ta curiosité, je peux t'organiser un passionnant déjeuner avec quelqu'un qui a consacré sa vie aux commandes stochastiques des systèmes à événements discrets.
La discussion faisant office de pudding frit, je te fais une p'tite salade tomates allégées - haricots light et eau 0%, pour accompagner ?
Ah ! mais bien sûr, je suis con : si je veux des nouvelles des gens qui gèrent mon compte Gmail, lequel est un système de communication global (mail + messagerie instantanée), faut que j'aille voir chez Twitter ou sur un blog pourri dont personne ne m'a signalé l'existence. Évidemment. Ça me rappelle l'épisode de l'avis d'expropriation d'Arthur Dent/Accroc dans H2G2 : "COMMENT ? Mais vous ne l'avez pas reçu ? On l'avait pourtant solidement enfermé à votre attention dans une armoire cadenassée du sous-sol de la mairie..."
C'est vrai, ils auraient mieux fait de t'envoyer un mail.
xave > :-D
C'est d'ailleurs ce qu'ils ont dû faire, puisqu'ils ont 110K personnes abonnées au flux de leur blog pourri.
Ah non ? :-p
Vous êtes presque attendrissants, tous les deux, dans votre numéro de duettistes de la mauvaise foi assumée.
Bin oui, ils auraient pu envoyer un mail. Pas pendant la panne, évidemment, bande de rigolos. Mais juste après, le truc dont je causais : "ayé, ça remarche, vous pouvez continuer à nous faire confiance", tout ça... Naïvement, je pensais que ce n'était pas si compliqué de communiquer avec les utilisateurs, quand on est justement une plateforme de mail + messagerie instantanée + pub...
Celle-là est à encadrer. Une vraie perle, venant de ta part. :)
Oué, la mauvaise foi c'est comme l'intelligence, c'est le truc le mieux réparti au monde : quelle que soit la dotation qu'on a reçue de dame nature, on trouve toujours qu'on a exactement la bonne proportion.
Tu es en train de me donner l'idée de créer un "point Nonal", similaire dans son principe au Godwin : le premier qui sortirait la carte "Mauvaise foi" marquerait le point.
Evidemment, ça ferait de toute tentative de commentaire sur ce blog un exercice hautement périlleux... :)
C'est effrayant : je vois bien que c'est Pep qui cause, mais j'ai l'impression d'entendre Xave persifler, brrrr. Vous êtes une paire de jumeaux maléfiques qu'on a séparés à la naissance pour sauver la planète, mais qui ont quand même réussi à se retrouver pour causer sa perte, c'est ça, hein ?
Ah mais de faux jumeaux, alors !
De fait, je suis beaucoup plus beau, intelligent, serviable, agréable et modeste que l'autre.
Et beaucoup plus de mauvaise foi. Merci pour la démonstration.
Tu marques donc le premier point Nonal de l'histoire.
C'est beau de te voir enfin t'illustrer dans une discipline quelconque...
Je le refuse, nous sommes encore dans la discussion censée le définir.
On s'en tape de la définition. De toute manière, personne ne lit les RFCs.
Accepte donc l'un des rares distinctions que tu peux espérer dans ta vie.
Euh, non. Preum's. C'est moi qui ai le premier sorti la carte "Mauvaise foi" dans le #12. C'est donc moi qui marque le point et entre dans l'Histoire. Nanmého. Et merci.
Quand je pense qu'on peut se faire son propre serveur mail perso pour moins de 200€, faut vraiment être naze pour confier sa vie privée à Mister Gogole. Niarf !
Gmail ne passera pas par moi !
Et t'étais où, là ? En train de le régler depuis quinze jours ?
La preuve par l'exemple : ce soir, les serveurs de Facebook sont plantés. Ça donne ça : "Votre compte est actuellement indisponible suite à un problème du site. Nous espérons résoudre cela rapidement. Veuillez réessayer dans quelques minutes."
"Nous espérons résoudre cela rapidement" : voilà. Ça, c'est du message d'erreur modeste sans être catastrophiste. Ça n'a pas l'arrogance de "Try again in 30 seconds".
Oh le vilain roquet qui ne veut pas lâcher !
Manquerait plus que ça, tiens.
Un bon coup de latte dans les glaouis et on ne le reverra plus...
Fais gaffe, c'est là que j'ai appris à mordre : aux glaouis. Tu croques et tu lâches pas, c'est le conseil que m'avait donné le vieux Sultan, à la fourrière.