Vérifier la continuité d un service informatique

01

Comment je l'ai validée

J'ai validé cette compétence en faisant concrètement ceci : J'ai valide cette compétence en testant la disponibilité réelle des services critiques au lieu de supposer qu'ils tenaient. Sur le projet Web HA, j'ai verifie la bascule automatique de la VIP et, avec Zabbix, j'ai contrôle la supervision et la remontee d'alertes.

Ce travail m'a permis de valider ma capacité à vérifier la continuité d'un service, preparer une bascule et controler que la supervision remonte bien les incidents. J'ai surtout appris qu'un service declare "hautement disponible" doit être teste dans des conditions realistes pour être credible.

Tester la migration de la VIP sur le cluster Pacemaker

Vérifier la disponibilité des services via Zabbix

Controler les conditions de reprise après incident

Vérifier la détection de panne autant que la reprise effective

Comparer le comportement attendu et la bascule réelle observee

TP et projets reliés

Ce que j'ai validé

Haute disponibilité Bascule de service Supervision

02

Actions & réalisations

Mise en place de la surveillance de continuité de service.

Configuration de checks Zabbix sur les services critiques

Surveillance de la disponibilité DNS et DHCP

Monitoring de la replication AD entre contrôleurs

Vérification de la connectivité inter-VLAN

Configuration des alertes en cas d'indisponibilite

Création de dashboards de suivi de disponibilité (uptime)

Tests de bascule pour valider la haute disponibilité

Vérification que le service redevient exploitable après reprise et pas seulement joignable

Correlation entre supervision, symptome utilisateur et etat réel du service

Services surveilles

Zabbix DNS DHCP Active Directory HSRP/VRRP

Compétences BTS SIO

Vérifier la continuité Superviser les services Reagir aux incidents

03

Difficultés & solutions

Le plus difficile est de ne pas confondre présence d'un service et continuité réelle. Un service peut répondre, mais rester partiellement degrade ou mal supervise.

Problème : Trop d'alertes generees (alert fatigue)

Solution : Ajustement des seuils et aggregation des alertes similaires

Problème : Service marque down alors qu'il est accessible

Solution : Vérification du check (port, protocole) et ajout de checks multiples

Problème : Bascule technique réussie mais service encore partiellement indisponible pour l'utilisateur

Solution : Ajouter des tests fonctionnels et pas seulement des checks de disponibilité

04

Bilan personnel

Cette compétence m'a appris a être plus exigeant sur la notion de disponibilité. Je verifie davantage la qualité de reprise, la pertinence des alertes et l'expérience réelle de l'utilisateur après incident.

Personnellement, cela m'a fait progresser dans la lecture des scénarios de panne. Je raisonne mieux en continuité de service complète, pas uniquement en etat up/down d'un composant.

Vision plus complète de la haute disponibilité

Supervision plus utile car mieux reliee à l'usage réel

Tests de reprise plus credibles et mieux argumentes

05

Preuves & captures

Cette page sert de synthèse. Les captures détaillées, configurations et resultats sont visibles dans les TP et projets reliés ci-dessus.

Dashboard disponibilité Zabbix

Alerte service down

Graphique uptime

Check DNS/DHCP

Replication AD OK

Test de bascule HSRP

Retour aux compétences