Un nouveau défi : votre code est chez les hébergeurs IA !

Depuis 2 ans, les sociétés d’informatique s’appuient sur des assistants IA pour améliorer leur productivité et la plupart du temps sans le dire à leurs clients.

Et d’ailleurs pour les clients, c’est finalement plutôt une bonne nouvelle puisqu’on leur propose plus pour un moindre coût. Plus la peine de payer aux prix fort des experts sur telles ou telles technologies ou frameworks puisque de jeunes sociétés ou jeunes développeurs promettent le même « résultat » à prix cassé !

Chez bluexml, nous avons choisi d’expliquer ce que ça signifie réellement d’utiliser des assistants IA mais surtout de demander à nos clients leur autorisation pour utiliser des assistants IA en connaissance de cause et sous conditions.

Dès qu’on utilise des assistants IA pour générer du code, des tests, de la documentation, il est important de se poser des questions car les assistants comme Claude code, Mistral vibe, Codex, … ont accès aux systèmes de fichier des développeurs voire au référentiel git et autres données sensibles. Et donc nos clients se demandent :

  • Qu’est-ce qui sort de notre SI ?,
  • Qui voit notre code ?
  • Est-ce que vous envoyez nos données clients aux IAs ?
  • Est-ce que vous envoyez nos données personnelles aux IAs ?
  • Est-ce que vous envoyez des données de configuration de notre infrastructure aux IAs ?
  • Est-ce que vous envoyez notre architecture logicielle, notre architecture logique, notre architecture physique aux IAs ?
  • Où vont exactement ces données ?

Et nos clients ont raison d’être prudents. Ce que nos clients nous confient n’est pas banal :

  • Du code métier qui représente parfois dix ans d’investissement R&D (algorithmes de tarification, moteurs de règles, logique de scoring).
  • Des axes d’évolution visibles dans les issues, les TODO, les branches en cours — qui racontent où l’entreprise va avant même que le produit ne soit livré.
  • Des axes de correction qui, publiés dans un log d’IA, reviendraient à publier une cartographie des vulnérabilités et des dettes techniques du système.
  • Des données à caractère personnel incluses dans les jeux de test, les schémas de base, les jeux d’exemple,  souvent sans que l’équipe en ait pleinement conscience.

Envoyer tout cela, en clair, sur des serveurs américains soumis au CLOUD Act* et à FISA 702** ou sur du serveur chinois hors contrôle, hébergés on ne sait où dans le monde, ce n’est pas un détail technique. C’est un choix contractuel, juridique et stratégique qui mérite d’être fait en connaissance de cause, par le client, et pas par défaut en cochant « I agree » dans un IDE.

La réponse bluexml : formaliser le choix, pas l’éviter

Plutôt que de décider à la place du client ou pire, de faire comme si le sujet n’existait pas, nous avons structuré notre cadre contractuel autour de 6 grands niveaux que le client retient projet par projet, en annexe du contrat principal.

Utilisation IA dans le code

Légende :

  • ✅ couverture directe
  • ✅✅ couverture renforcée
  • ✅✅✅ couverture complète
  • ⚠ couverture partielle ou indirecte
  • ❌ hors périmètre

Chaque niveau a sa raison d’être. Le Niveau 1 ne convient pas à une banque puisqu’il n’impose aucune contrainte dans l’utilisation d’assistants IA. Le Niveau 6 est probablement excessif pour un site vitrine puisqu’il interdit complètement l’utilisation d’assistants IA et donc les gains de productivité dans la réalisation d’un site non sensible.

Le Niveau 2 repose sur les garanties contractuelles offertes par les éditeurs d’Outils IA dans le cadre de leurs offres professionnelles : engagement de non-réutilisation des données soumises à des fins d’entraînement, DPA, SOC 2, etc. Le client fait ici le choix de s’en remettre à ces garanties sans y adjoindre de mesure technique côté Prestataire.

Le Niveau 3 renforce le Niveau 2 en restreignant le parc d’outils aux éditeurs non soumis à une législation extraterritoriale, afin de traiter la préoccupation de souveraineté juridictionnelle.

Le Niveau 4.1 correspond à un changement de modèle de confiance : les parties ne s’en remettent plus aux seules garanties contractuelles des éditeurs. Le contenu est transformé par des mesures techniques automatisées avant toute soumission à un Outil IA, ce qui rend ce contenu difficilement exploitable par l’éditeur ou par tout tiers y ayant accès, en l’absence de la table de correspondance conservée côté Client ou Prestataire.

Le Niveau 4.2 cumule les mesures techniques du Niveau 4.1 avec l’exigence de souveraineté du Niveau 3. Il convient aux projets pour lesquels le client souhaite à la fois s’affranchir de la confiance en l’éditeur (par les mesures techniques) et se prémunir contre les législations extraterritoriales (par la souveraineté).

Le Niveau 5 supprime tout transit externe des contenus soumis : le modèle de langage est exécuté sur une infrastructure contrôlée par le Client ou le Prestataire. Les modèles auto-hébergés disponibles aujourd’hui présentent généralement une qualité inférieure aux modèles cloud commerciaux (Claude Opus, Mistral vibe, Codex, etc).

La force de l’approche, c’est de rendre le choix explicite : le client sait ce qu’il accepte, nous savons ce que nous pouvons faire, et les estimations de charge reflètent le niveau de contrainte retenu.

Le choix va permettre d’établir le meilleur compromis entre la sécurité et la productivité dans le contexte du projet cible.

Des collaborateurs responsables et des outils sous contrôle

Nos clients et nous, nous voulons sécuriser l’infrastructure, les données personnelles et la propriétés industrielle (PI) tout en continuant à améliorer la productivité.

C’est pourquoi, chez bluexml, nous avons commencé par sensibiliser et former nos collaborateurs à ces exigences dans leur utilisation de l’IA.

Nous avons ensuite étudié et établi des outils qui vont répondre à ces exigences, en particulier pour l’intermédiation technique (niveau 4) et pour l’auto-hébergement (niveau 5).

L’intermédiation technique va consister à appliquer des transformations d’anonymisation, pseudonymisation, assainissement de configuration et obfuscation sur ce qui est envoyé à un assistant IA et en retour, à réappliquer des transformations inverses pour adapter la réponse de l’IA à l’existant.

Pour cela, nous proposons aux clients qui souhaitent appliquer ces mesures l’utilisation des outils appliquant ces transformations. Le marché est encore jeune et éclaté en trois familles (PII, Cybersécurtié, PI) qui ne se recouvrent qu’en partie.

Voici un panorama des outils techniques mobilisables pour réaliser cette intermédiation et se protéger quand on génère du code avec des assistants IA :

Légende :

  • ✅ couverture directe
  • ✅✅ couverture renforcée
  • ⚠ couverture partielle ou indirecte
  • ❌ hors périmètre
  • Indication de coût :
    • 0 : Gratuit, outil open source auto-hébergé, pas de coût de licence
    • € : commercial à l’usage, volumes modestes peu coûteux
    • €€ : commercial en abonnement, centaines à quelques milliers d’euros par mois selon les volumes.
    • €€€ : commercial entreprise, tarification sur devis à partir de plusieurs milliers d’euros par mois.

La question n’est plus « utilise-t-on l’IA ? ». C’est « à quelles conditions, pour quels projets, avec quelles mesures ? ».

Retour en haut