Problèmes que nous résolvons

Cinq vrais obstacles du développement assisté par AI — et comment Arc OS les élimine chacun.

Problème 1 : "L'AI oublie tout entre les sessions"

Le problème

Tu passes 30 minutes à apprendre tes conventions de projet à Claude. Session suivante — tableau blanc. Tu corriges une erreur. Demain — même erreur. Chaque session repart de zéro.

Comment les autres gèrent ça

ChatGPT : Instructions personnalisées (200 mots, un seul ensemble pour tout)
Cursor : Fichier .cursorrules (manuel, pas de boucle de feedback)
Manuel : Copier-coller tes "règles" dans chaque conversation

Comment Arc OS le résout

Reflect Loop — mémoire persistante automatique à partir des corrections.

Tu appuies sur "Fix It" ou "thumbs-down"
    → Le système écrit une règle dans learnings.md
    → La règle survit aux redémarrages
    → Injectée dans CHAQUE prompt futur automatiquement

Exemple de learnings.md après 2 semaines :

- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation

Résultat : Le système construit une "mémoire immunitaire". Une correction = règle permanente. La même erreur ne se reproduit jamais.

Problème 2 : "L'AI ne comprend pas le stack technologique de mon projet"

Le problème

Ton projet Odoo utilise Bootstrap, le framework Owl, les templates QWeb, Python. Ton SaaS utilise Tailwind, React, Next.js, TypeScript. Un bot AI générique confond les deux. Les conseils Odoo contaminent le contexte React. Les patterns React apparaissent dans le code Odoo.

Comment les autres gèrent ça

ChatGPT : Une conversation par projet (pas d'enforcement)
Cursor : Aware du workspace mais fenêtre de contexte unique
Manuel : Rappeler constamment à l'AI dans quel projet tu es

Comment Arc OS le résout

Architecture fédérée — un child bot par projet, isolation complète.

Master Bot
    ├── Child: odoo-site     (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
    │   ├── skills/library/odoo-expert.md
    │   ├── skills/library/odoo-owl-expert.md
    │   └── learnings.md: "Use t-call for i18n"
    │
    └── Child: saas-app      (CLAUDE.md: Next.js 15, React, Tailwind)
        ├── skills/library/react-patterns.md
        ├── skills/library/tailwind-expert.md
        └── learnings.md: "Prefer server components"

Bots Telegram différents. Répertoires de travail différents. Skills différentes. Mémoire différente. Ils ne voient jamais le contexte de l'autre.

Résultat : Guide complet dans Isolation des skills multi-projets.

Problème 3 : "L'AI génère du code non sécurisé et personne ne le détecte"

Le problème

L'AI suggère git push --force. Affiche un mot de passe dans un snippet de code. Recommande rm -rf /. Tu ne l'attrapes pas toujours. La réponse part en production.

Comment les autres gèrent ça

ChatGPT / Copilot : Pas de validation des sorties du tout
Cursor : Vérification syntaxique uniquement
Manuel : Revue humaine de chaque réponse (ne passe pas à l'échelle)

Comment Arc OS le résout

Moteur d'évaluation binaire — règles déclaratives qui vérifient chaque réponse avant la livraison.

{
  "rules": [
    { "name": "No force push", "type": "string_not_contains", "value": "--force" },
    { "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
    { "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
  ]
}

Les échecs apparaissent comme notes de bas de page sur la réponse :

[Réponse de Claude ici]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output

Les règles sont par skill, par projet. Ton projet Odoo vérifie la conformité QWeb. Ton projet React vérifie la manipulation directe du DOM.

Résultat : Porte qualité automatisée sur chaque sortie AI. Pas besoin de revue humaine pour la sécurité de base.

Problème 4 : "Je n'ai aucune idée si l'AI performe bien"

Le problème

Tu utilises l'AI depuis 3 mois. Est-ce vraiment bon ? Quelles skills fonctionnent ? Lesquelles échouent ? S'améliore-t-il ou se dégrade-t-il ? Pas de données. Pas de métriques. Juste de l'intuition.

Comment les autres gèrent ça

ChatGPT : Historique des conversations (non structuré, pas de métriques)
Copilot : Taux d'acceptation (un seul chiffre, pas de détail)
Manuel : Feeling

Comment Arc OS le résout

Quality Tracker + Karpathy Loop — métriques par skill avec propositions d'amélioration automatisées.

Chaque réponse est enregistrée :

{
  "type": "execution",
  "skills": ["code-review"],
  "success": true,
  "duration_ms": 12340,
  "response_length": 2847
}

Chaque bouton de feedback (thumbs-up/thumbs-down) est suivi par réponse :

La commande /quality affiche :
  code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
  git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s

À 3h du matin la Karpathy Loop se lance :

Trouve les skills avec <80% de succès ou plus de feedback négatif que positif
Envoie au CEO une carte de proposition dans Telegram
Un tap : Approuver (backup + améliorer) ou Rejeter (ignorer)

Résultat : Gestion AI basée sur les données. Tu sais exactement ce qui fonctionne et ce qui ne fonctionne pas.

Problème 5 : "25 skills chargées à la fois = AI confus"

Le problème

Tu as 25 skills couvrant git, déploiement, revue de code, Figma, Odoo, tests, sécurité. Tout charger dans chaque prompt gaspille la fenêtre de contexte et perturbe le modèle. Il essaie d'appliquer des conseils de déploiement à une question de revue de code.

Comment les autres gèrent ça

ChatGPT : Pas de système de skills du tout
Cursor : Toutes les règles toujours chargées
Manuel : Commenter les règles non pertinentes par tâche

Comment Arc OS le résout

Context Router — sélection intelligente de skills par message.

Utilisateur : "Review this code for XSS vulnerabilities"

Context Router score :
  code-review:          trigger "review" (2) + keyword "XSS" (1) = 3
  code-review-protocol: trigger "code review" (2)                 = 2
  system-audit:         no match                                  = 0
  git-manager:          no match                                  = 0

Injecte dans le prompt :
  SKILLS_HINT (focus on these):
  - code-review: Security audit and code quality review...
  - code-review-protocol: Structured code review with OWASP...

Seules les 5 skills les plus pertinentes sont suggérées. Claude a toujours accès à toutes les skills, mais se concentre sur les bonnes. Consultatif, pas restrictif — aucun risque de casser quoi que ce soit.

Résultat : Réponses ciblées et pertinentes. Pas de pollution de contexte par des skills non pertinentes.

Résumé

Problème	Solution Arc OS	Mécanisme
L'AI oublie les corrections	Règles d'apprentissage persistantes	Reflect Loop (`learnings.md`)
Mauvais contexte de stack technologique	Child bots isolés	Architecture fédérée
Sorties non sécurisées	Validation déclarative	Moteur d'évaluation binaire
Pas de données de performance	Métriques par skill + analyse nocturne	Quality Tracker + Karpathy Loop
Dilution du contexte	Sélection intelligente de skills	Context Router