Support & mise a disposition

Vérifier la continuité d un service informatique

Supervision et contrôle de disponibilité pour garantir le maintien opérationnel.

01

Comment je l'ai validée

J'ai validé cette compétence en faisant concrètement ceci : J'ai valide cette compétence en testant la disponibilité réelle des services critiques au lieu de supposer qu'ils tenaient. Sur le projet Web HA, j'ai verifie la bascule automatique de la VIP et, avec Zabbix, j'ai contrôle la supervision et la remontee d'alertes.

Ce travail m'a permis de valider ma capacité à vérifier la continuité d'un service, preparer une bascule et controler que la supervision remonte bien les incidents. J'ai surtout appris qu'un service declare "hautement disponible" doit être teste dans des conditions realistes pour être credible.

Tester la migration de la VIP sur le cluster Pacemaker
Vérifier la disponibilité des services via Zabbix
Controler les conditions de reprise après incident
Vérifier la détection de panne autant que la reprise effective
Comparer le comportement attendu et la bascule réelle observee

TP et projets reliés

Ce que j'ai validé

Haute disponibilité Bascule de service Supervision
02

Actions & réalisations

Mise en place de la surveillance de continuité de service.

Configuration de checks Zabbix sur les services critiques
Surveillance de la disponibilité DNS et DHCP
Monitoring de la replication AD entre contrôleurs
Vérification de la connectivité inter-VLAN
Configuration des alertes en cas d'indisponibilite
Création de dashboards de suivi de disponibilité (uptime)
Tests de bascule pour valider la haute disponibilité
Vérification que le service redevient exploitable après reprise et pas seulement joignable
Correlation entre supervision, symptome utilisateur et etat réel du service

Services surveilles

Zabbix DNS DHCP Active Directory HSRP/VRRP

Compétences BTS SIO

Vérifier la continuité Superviser les services Reagir aux incidents
03

Difficultés & solutions

Le plus difficile est de ne pas confondre présence d'un service et continuité réelle. Un service peut répondre, mais rester partiellement degrade ou mal supervise.

Problème : Trop d'alertes generees (alert fatigue)
Solution : Ajustement des seuils et aggregation des alertes similaires
Problème : Service marque down alors qu'il est accessible
Solution : Vérification du check (port, protocole) et ajout de checks multiples
Problème : Bascule technique réussie mais service encore partiellement indisponible pour l'utilisateur
Solution : Ajouter des tests fonctionnels et pas seulement des checks de disponibilité
04

Bilan personnel

Cette compétence m'a appris a être plus exigeant sur la notion de disponibilité. Je verifie davantage la qualité de reprise, la pertinence des alertes et l'expérience réelle de l'utilisateur après incident.

Personnellement, cela m'a fait progresser dans la lecture des scénarios de panne. Je raisonne mieux en continuité de service complète, pas uniquement en etat up/down d'un composant.

Vision plus complète de la haute disponibilité
Supervision plus utile car mieux reliee à l'usage réel
Tests de reprise plus credibles et mieux argumentes
05

Preuves & captures

Cette page sert de synthèse. Les captures détaillées, configurations et resultats sont visibles dans les TP et projets reliés ci-dessus.