XVI – Sécurité de fonctionnement des commutateurs électroniques

🟦⬜🟥 🟦⬜🟥 🟦⬜🟥 🟦⬜🟥 🟦⬜🟥 🟦⬜🟥

  • Dédoublement des organes de calcul et de commande : Concernant les commutateurs électroniques et eux seuls, qu’ils soient des types semi-électroniques spatiaux ou électroniques temporels, le principe retenu afin d'assurer une large fiabilité est de dupliquer les organes de calcul et les organes de commande, car comme tout ensemble électronique, ils peuvent tomber en panne... Suivant les différents systèmes, les moyens pour parvenir à cette sécurisation par duplication sont sensiblement différents.
  • Cas des commutateurs spatiaux ou temporels centralisés fonctionnant en synchronisme total : il s'agit des commutateurs AXE, AXE10, AXE Transgate 4 et E12. L'Unité de Commande Centralisée est dupliquée : elle est composée de deux calculateurs identiques A et B travaillant en permanence en synchronisme. Il s’agit du « mode duplex ». Ce synchronisme permet un contrôle par comparaison entre les deux calculateurs et en cas de divergence, entre les deux calculateurs les alarmes sont déclenchées suivant l'importance des avaries. En cas d'avarie majeure, le calculateur défaillant s'arrête en urgence, et le calculateur indemne continue d'assurer l'acheminement du trafic, sans marge de réserve : il s’agit du « mode simplex».
  • Cas des commutateurs spatiaux ou temporels centralisés fonctionnant en partage de charge : il s'agit des commutateurs 11F, MT20 et MT25. L'Unité de Commande Centralisée est dupliquée : elle est composée de deux calculateurs identiques A et B travaillant en service normal en partage de charge. Il s’agit du « mode duplex ». Ces commutateurs travaillent donc préférentiellement en tandem en se répartissant la charge de travail, mais ils sont également capables de travailler en synchronisme total en effectuant les mêmes tâches identiques au même instant, ce qui permet un contrôle par comparaison, ou alors travailler en tandem en se répartissant la charge de travail, ou encore travailler alternativement du calculateur A vers le calculateur B, puis du calculateur B vers le calculateur A . En cas de défaillance avec arrêt total de l’un des deux calculateurs (A ou B),  le calculateur sain doit pouvoir reprendre la totalité du trafic jusqu’à ce que le calculateur défaillant puisse être redémarré automatiquement par le calculateur indemne, ou qu'il puisse être dépanné et redémarré par une équipe de techniciens experts : il s’agit du « mode simplex».

CalculateurA

CalculateurB

P47

Ci-dessus : vue caractéristique du dédoublement des organes de calculs. (Dans ce cas, un commutateur MT25 (Beaujon 3 ET1 (AB33)) (Photographie : C. R-V.)

_____

  • Cas des commutateurs temporels décentralisés - à commande répartie : il s'agit des commutateurs E10N3, E10N1 et E10B3. La charge de travail est répartie entre plusieurs organes de nature différente. (Le partage de charge se fait entre le multienregistreur, le taxeur et le traducteur). Il s'agit d'une commande répartie entre plusieurs organes différents et spécialisés. Chaque type de différent organe est présent au minimum en deux exemplaires pour assurer la sécurité du système et fonctionnent en service normal, en partage de charge. Ces organes dédoublés sont : les Taxeurs (TX), les Traducteurs (TR) et les Marqueurs (MQ) ; les Multienregitreurs (MR) étant au minimum dédoublés. En cas d'avarie d'un de ces organes, le ou les organes de même type doivent pouvoir reprendre la totalité de la charge de travail de l'organe défaillant, en plus de leur propre charge de travail, jusqu'à ce que l'organe défaillant ait été réinitialisé et redémarré automatiquement par le système, ou après qu'il ait été réparé par l'équipe de maintenance.

 

  • Cas de défaillance partielle du cœur de chaîne : Dans le cas d'un commutateur à structure centralisée (E11, E12, 11F, AXE, AXE10, MT20, MT25), lorsqu’un calculateur n’est pas volontairement arrêté pour raison de maintenance ou de mise à jour, mais qu’il s’arrête brutalement, il s’agit d’un incident sérieux. Un cœur de chaîne dont un des deux calculateurs est en arrêt total fonctionne alors en « mode simplex » mais le service téléphonique demeure assuré « sans marge de réserve ». Une équipe sur place ou de supervision à distance doit en général intervenir au plus vite pour détecter l’origine de l’avarie (panne matérielle ou logicielle) et prendre les mesures au plus vite pour endiguer le défaut ainsi que parvenir à redémarrer le calculateur défaillant.
  • Cas de défaillance totale d’un cœur de chaîne : il s’agit d’un incident grave, voire majeur en fonction du nombre d’abonnés concernés et du temps d’arrêt total. Un cœur de chaîne dont les deux calculateurs sont en arrêt total est en « arrêt duplex » et dans ce cas, plus aucun abonné du commutateur n’est relié au service téléphonique, le commutateur n’est alors même plus en mesure de délivrer aucune tonalité (440 Hz : invitation à numéroter) aux abonnés. Dans les cas les plus graves résultant d’une corruption du programme de fonctionnement qui se serait diffusée dans tout le commutateur, le commutateur doit alors être mis dans un premier temps totalement hors tension puis remis sous tension et purgé de sa mémoire dès le redémarrage. Ensuite son programme de fonctionnement doit être à nouveau rechargé en mémoire, ainsi que sa sauvegarde mémorielle ayant précédé le début de la panne majeure, comme par exemple les données de taxation. Des premiers prototypes jusqu'au début des années 2000, les sauvegardes sont en général effectuées régulièrement via un volumineux dérouleur de bandes magnétiques à bandes de ½ pouce de largeur sur bobines de 10,5 pouces de diamètre maximum (bandes qu’il fallait charger et interchanger à la main) ; dérouleurs ayant été ensuite progressivement supprimés et remplacés à partir de l'année 1994 par des liaisons de transmissions rapatriant directement les données de taxation directement de chaque commutateur via son Centre d’Enregistrement de la Taxation de rattachement jusqu’au Centre de Facturation Régional, pour raison de coût d’exploitation et de simplicité d’organisation.
  • Exemple de défaillance totale emblématique d'un cœur de chaîne en France : le 15 mars 1990, le Commutateur International Automatique MT20 Bordeaux Mériadeck 2 (BX19) cesse de fonctionner durant 5 longues heures, de 6H30 à 11H30. Pendant ces 5 heures, les 5 millions d'abonnés desservis par cet autocommutateur international ne peuvent plus téléphoner à l'étranger. Par chance, 90% des appels internationaux provenant de l'étranger peuvent encore être distribués, grâce aux reroutages intervenus en urgence par nos services de supervision du réseau. La panne avait pour origine une mise à jour logicielle buggée qui a ensuite empêché le redémarrage attendu de ce commutateur. Il a fallu revenir en urgence à la version logicielle précédente pour pouvoir ensuite redémarrer le commutateur. 
  • L'incident grave de Bordeaux n'a pas été vain. Après une réunion tenue au sommet hiérarchique le 21 mars 1990, il sera décidé dans la foulée par M. le Directeur Général des Télécommunications, Marcel Roulet, de réorganiser notre réseau international et de faire construire à Reims un commutateur MT20 International spécialisé dans la fonction Secours, qui soit capable, en quelques minutes de suppléer à n'importe quel MT20 International de France qui tomberait en panne prolongée. Le MT20 CIA de Reims Secours (HM12) a ainsi assuré la fonction secours du réseau international automatique français du mois de Décembre 1993 jusqu'à sa mise hors service le 16 mai 2002.

P48.DerouleurBandeMagnetique

P49

Ci-dessus : vue d'un dérouleur de bandes magnétiques. (obsolète depuis 2000) (Documentation constructeur)

Ci-dessus : vue d'une armoire contenant les bandes de sauvegarde d'un commutateur téléphonique (dans ce cas précis : un MT25) (Photographie : C. R-V.)

Ci-contre : sacoche de transport pour bandes magnétiques de données

(Obsolète depuis 2000). 

Collection C. R-V.

SacocheBandeMagnetique

  • Exemple de défaillance majeure d’un réseau téléphonique : lors d’une défaillance de nature logicielle qui survient soit sans raison apparente ou suite à une mise à jour logicielle, l’intégrité de l’ensemble du réseau public des commutateurs d’un pays peut être mise en péril. En effet, une corruption logicielle dans un simple commutateur d’abonnés si elle n’est pas détectée et supprimée à temps, peut via le réseau des transmissions se propager aux autres commutateurs voisins et ainsi faire tache d’huile. 
  • Aux USA, le 15 janvier 1990 une gigantesque panne téléphonique de l’opérateur principal américain AT&T a perturbé le réseau téléphonique de tous les États-Unis durant 9 heures, en raison d’un bug qui a pris naissance, suite à une mise à jour, dans un seul commutateur de Manhattan et qui s’est propagé à travers tout ce pays en quelques minutes…

Heureusement, en France, nous n'avons jamais été confrontés à une panne réseau d'une telle ampleur. Interviennent toujours dans ce style d'incidents une part due à l'organisation et au temps de réaction des équipes de supervision, à l'erreur humaine, à l'erreur logicielle, à la surcharge ainsi, il faut bien le dire, à la malchance.

  • En France, finalement, ces 20 dernières années, seulement 3 affaires de pannes du Réseau Téléphonique Commuté Fixe de France Télécom ont fait les gros titres de la presse, souvent grossies par les médias en mal de sensations et de buzz...
  • Paris - Zone Urbaine, du 3 mai 2000 - 10H30 au 4 mai 2000 - 2H00 du matin : 2 millions d'abonnés gênés par une diminution d'efficacité d'acheminement des appels de 25%, due à une panne de signalisation sur 4 machines. Équipements réparés dans la nuit même.
  • Réseau Intelligent (Numéros Verts, Azur et Indigo), du 27 juin 2000 à 16H30 au 28 juin 2000 à 14H00 : incident majeur national ayant fortement réduit l'accès aux numéros verts, azur et indigo (numéros commençant par 08), dû à une nouvelle version logicielle posant problème, version qui a été supprimée et remplacée rapidement par la précédente.
  • Régions IDF, Nord et Ouest, du 30 octobre 2004 - 16H00 au 31 octobre 2004 - 21H30 (week-end Toussaint) : difficultés d'acheminement dans les communications reçues dans ces régions (1% des appels perdus), concernant 26 commutateurs MT25 sur les 288 alors en service en France, dues à une anomalie logicielle dans un équipement VOiP situé à Reims, qui a entraîné une réaction automatique de protection du réseau.  Les 26 MT25 perturbés ont été redémarrés et un patch logiciel d'urgence a été déployé par nos ingénieurs et techniciens pour régler le problème. Les communications de la période perturbée ne seront pas facturées, en compensation de la gêne occasionnée.
  • Dans un souci de transparence totale, depuis le 1er Juin 2005, France Télécom/orange publie, pour la première fois en Europe, un Tableau de Bord Mensuel de la Qualité de Service, car, en réalité, les incidents pouvant survenir dans n'importe quel organisme vivant, il en est de même dans un réseau téléphonique, donc pourquoi chercher à le cacher ? Tout est donc rendu public depuis cette date.


­

Histoire des Télécommunications Françaises © Claude Rizzo-Vignaud, 27 décembre 2017.