# Tests de montée en charge # Rapport de campagne — Tests de montée en charge OCPP WeGo **Date** : 28 mai 2026 **Environnement** : Préprod (`ocpp.preprod.we-go.pro`) **Réalisé par** : Brian KAZMIEROWSKI **Destinataires** : Direction Technique, Direction régional, SpikeeLabs --- ## 1. Contexte et objectif ### Contexte La plateforme WeGo OCPP est le socle de communication temps réel entre les bornes de recharge et le back-office. Chaque borne maintient une connexion WebSocket permanente vers le CSMS (Charging Station Management System) pour échanger les messages OCPP 1.6 : démarrage/arrêt de charge, remontée de consommation, heartbeat, etc. Avec la croissance du parc, il est essentiel de valider la capacité de la plateforme à absorber un nombre élevé de bornes simultanées sans dégradation de service. ### Objectif Déterminer la **capacité maximale** de la stack actuelle en nombre de bornes connectées simultanément, identifier les **goulots d'étranglement**, et les corriger progressivement jusqu'à atteindre 20 000 bornes. ### Méthodologie - **Outil d'injection** : k6 avec extension OCPP custom (protocole WebSocket natif) - **Scénario** : montée progressive par paliers de 5% toutes les 6 secondes - **Cycle de vie simulé** : connexion → BootNotification → StatusNotification → Authorize → StartTransaction → MeterValues → StopTransaction - **Critère d'arrêt automatique** : taux de succès global < 95% - **Métrique principale** : nombre de bornes connectées simultanément avec latence OCPP < 30s au p95 --- ## 2. Synthèse des résultats ### Progression de la capacité

Étape	Capacité maximale	Latence OCPP p95	Facteur limitant
État initial	~500 bornes	Non mesurable	Erreurs de données
Après correction du dataset	~2 200 bornes	137 ms ✅	Nginx — connexions WebSocket
Après correction Nginx	5 000 bornes ✅	2 s	Backend applicatif
Test à 10 000 bornes	4 200 bornes	5,9 s	Saturation CPU backend

### Résultat clé > **La capacité de la plateforme a été multipliée par 10** (de ~500 à 5 000 bornes simultanées) grâce aux corrections infrastructure et données, sans aucune modification du code applicatif. ``` Bornes connectées simultanément │ 5000 ┤ ████████████████████████████████████████████████ 4 999 ✅ │ 4000 ┤ ███████████████████████████████████████████ 4 172 (test 10K) │ 3000 ┤ │ 2000 ┤ ████████████████████ 2 200 (plafond Nginx) │ 1000 ┤ │ 500 ┤ █████ ~500 (état initial) │ 0 ┼────────────────────────────────────────────────── Initial Dataset Nginx fix Test 10K ``` --- ## 3. Problèmes identifiés et corrections apportées ### 3.1 — Dataset de test incohérent **Problème** : les bornes de test existantes avaient des structures hétérogènes (connecteurs avec des identifiants variés : 1, 2, 10…), ce qui provoquait des échecs systématiques dans les scénarios k6. **Correction** : génération d'un jeu de données dédié de **20 000 bornes** avec une structure homogène (préfixe `LOADTEST.CBID.*`, 2 connecteurs par borne, autorisations RFID configurées). Un pool de **5 875 badges RFID** a été constitué à partir des autorisations existantes. **Impact** : élimination de 100% des erreurs liées aux données de test. --- ### 3.2 — Épuisement des badges RFID sous charge **Problème** : le mécanisme de distribution des badges RFID dans l'injecteur était linéaire — une fois le stock épuisé, les VUs restaient bloquées indéfiniment, faussant les métriques. **Correction** : mise en place d'un **recyclage circulaire** des badges, permettant à chaque VU de réutiliser ses RFID quand le stock est épuisé. **Impact** : suppression totale des erreurs `rfid_missing` et des VUs bloquées. --- ### 3.3 — MariaDB sous-dimensionnée **Problème** : la base de données fonctionnait avec une configuration par défaut inadaptée à la charge visée. **Correction** :

Paramètre	Avant	Après
Buffer pool InnoDB	128 Mo	4 Go
Connexions max	151	1 000
Slow query log	Désactivé	Activé (seuil : 1s)

**Impact** : réduction de la latence DB et capacité de diagnostic des requêtes lentes. > Un backup complet de la configuration a été réalisé avant modification. La procédure de rollback est documentée. --- ### 3.4 — Nginx — Plafond de connexions WebSocket (cause racine principale) **Problème** : les connexions WebSocket étaient plafonnées à environ **2 200 bornes**. Au-delà, Nginx refusait toute nouvelle connexion avec l'erreur : ``` 4096 worker_connections are not enough while connecting to upstream ``` **Explication** : chaque WebSocket proxifiée par Nginx consomme **2 descripteurs de fichier** (un côté client, un côté backend). Avec `worker_connections = 4096`, la capacité réelle était de `4096 / 2 = 2 048 connexions WebSocket` par worker. De plus, toutes les connexions de l'injecteur (IP unique) étaient routées vers un seul worker Nginx, concentrant la saturation. **Correction** :

Paramètre	Avant	Après
`worker_connections`	4 096	65 535
Distribution inter-workers	Désactivée	Activée (`reuseport`)
Capacité théorique	~2 048 WS	~458 000 WS

**Impact** : **+127% de capacité immédiate** — de 2 200 à 5 000 bornes connectées, avec 0% d'erreur de connexion. > Configuration rollbackable. Backups des fichiers originaux conservés sur le serveur. --- ### 3.5 — Limites de fichiers ouverts sur l'injecteur **Problème** : le conteneur d'injection était limité à 10 000 descripteurs de fichier, insuffisant pour simuler plus de 10 000 bornes. **Correction** : augmentation à 65 535 descripteurs. **Impact** : permet la simulation jusqu'à 20 000+ bornes depuis un seul injecteur. --- ### 3.6 — Scripts d'injection k6 **Problème** : les scripts ne disposaient pas de gardes contre les débordements de dataset ni de compteurs d'erreurs exploitables. **Correction** : - Garde anti-débordement (au-delà de 20 000 bornes) - Compteurs dédiés : `rfid_missing`, `stucked_vu`, `dataset_out_of_range` - Alternance automatique des connecteurs 1 et 2 **Impact** : résultats de test fiables et exploitables. --- ## 4. Analyse du test à 5 000 bornes (résultat de référence) ### Résultats

Métrique	Valeur
Bornes connectées	4 999 / 5 000 (99,98%)
Taux de connexion	100% — 0 échec
Taux de succès global	99,04%
Latence OCPP p95	1,99 s
Latence OCPP médiane	139 ms
Transactions démarrées	436
Transactions terminées	33

### Bilan par composant

Composant	État sous charge	Verdict
Nginx (14 workers)	Aucune erreur, connexions distribuées	✅ Sain
OCPP Gateway	11% CPU, 440 Mo RAM	✅ Confortable
Worker NestJS	104% CPU	⚠️ Limite atteinte
Backend API	89% CPU	⚠️ Chargé
MariaDB	Latence stable, slow log actif	✅ Sain
Redis	Stable	✅ Sain

--- ## 5. Analyse du test à 10 000 bornes ### Résultats

Métrique	5 000 bornes	10 000 bornes
Bornes connectées	4 999	4 172
Taux de connexion	100%	95%
Authorize success	89%	15% ❌
Latence p95	2 s	5,9 s
Cause d'arrêt	Fin normale	Seuil qualité franchi

### Diagnostic Le backend applicatif (NestJS) sature au-delà de ~4 000 bornes : - Le worker NestJS consomme 100% d'un cœur CPU dès 5 000 bornes - Les requêtes d'autorisation (`Authorize`) expirent en timeout - La latence OCPP triple entre 5 000 et 10 000 bornes **Conclusion** : l'infrastructure réseau et base de données tiennent la charge. Le facteur limitant est désormais exclusivement le **backend applicatif**. --- ## 6. Cartographie des goulots d'étranglement ```mermaid flowchart LR A["Dataset\n(corrigé ✅)"] --> B["Nginx\n(corrigé ✅)"] B --> C["Backend NestJS\n⚠️ PROCHAIN"] C --> D["MariaDB\n(tuné ✅)"] C --> E["Redis\n(OK ✅)"] style A fill:#4ade80,stroke:#166534,color:#000 style B fill:#4ade80,stroke:#166534,color:#000 style C fill:#fbbf24,stroke:#92400e,color:#000 style D fill:#4ade80,stroke:#166534,color:#000 style E fill:#4ade80,stroke:#166534,color:#000 ```

Rang	Composant	Statut	Seuil	Action
1	~~Dataset~~	✅ Corrigé	~~500~~	20 000 bornes prêtes
2	~~Nginx WebSocket~~	✅ Corrigé	~~2 200~~	Capacité 458K+
3	~~MariaDB~~	✅ Tuné	~~N/A~~	4 Go buffer, 1 000 conn.
4	Backend NestJS	⚠️ À traiter	~4 200	Voir section 7
5	Scalabilité horizontale	Non démarré	~10 000	Voir section 7

--- ## 7. Recommandations pour atteindre 20 000 bornes ### Priorité 1 — Optimisation applicative (impact estimé : +50 à 100%) Des points d'optimisation ont été identifiés dans le code NestJS lors de l'audit :

Optimisation	Description	Impact attendu
Suppression d'un double appel d'autorisation	La vérification `checkInternalGroupAuthorization` est appelée deux fois lors de chaque `Authorize`	Réduction de 50% de la charge DB sur les autorisations
Remplacement `save()` par `insert()`	Les MeterValues utilisent un `save()` TypeORM qui effectue un SELECT avant chaque INSERT	Réduction significative des requêtes DB
Correction d'un crash silencieux	`checkInternalGroupAuthorization` peut crasher sur `undefined`	Stabilité accrue sous forte charge

Ces corrections ne nécessitent pas de changement d'architecture et peuvent être déployées rapidement. ### Priorité 2 — Scalabilité horizontale du backend Si les optimisations applicatives ne suffisent pas pour atteindre 10 000+ bornes : - **Ajout d'instances OCPP** derrière un load balancer WebSocket (sticky sessions) - **Augmentation des ressources CPU** du serveur backend (actuellement 4 cœurs) - **Séparation des workers** : dédier des conteneurs aux traitements asynchrones (MeterValues, facturation) ### Priorité 3 — Infrastructure d'injection Pour les tests au-delà de 5 000 bornes : - L'injecteur actuel (8 Go RAM) est insuffisant pour 10 000+ bornes - Solution : utiliser une machine avec 16 Go+ ou distribuer sur plusieurs injecteurs (mécanisme déjà prévu dans l'outil) --- ## 8. Synthèse des risques

Risque	Probabilité	Impact	Mitigation
Panne WebSocket en prod avec croissance du parc	Élevée si non corrigé	Bornes déconnectées	Appliquer le fix Nginx en prod
Saturation backend au-delà de 4 000 bornes actives	Moyenne	Dégradation du service (timeouts)	Optimisations NestJS + scaling
Requêtes lentes non détectées	Faible (slow log activé)	Latence progressive	Monitoring continu

--- ## 9. Conclusion Cette campagne a permis de **multiplier par 10 la capacité** de la plateforme (de ~500 à 5 000 bornes) sans modification du code applicatif, uniquement par corrections infrastructure et données. Le prochain palier (10 000 à 20 000 bornes) nécessitera des **optimisations du backend NestJS**, déjà identifiées et prêtes à être implémentées. > \[!IMPORTANT\] **Action immédiate recommandée** : vérifier et appliquer le correctif Nginx (`worker_connections`) en production. Sans cette correction, la prod est exposée au même plafond de ~2 200 connexions WebSocket. --- *Rapport généré le 28 mai 2026 — Mis à jour le 1er juin 2026*