Problèmes que nous résolvons

Cinq vrais obstacles du développement assisté par AI — et comment Arc OS les élimine chacun.


Problème 1 : "L'AI oublie tout entre les sessions"

Le problème

Tu passes 30 minutes à apprendre tes conventions de projet à Claude. Session suivante — tableau blanc. Tu corriges une erreur. Demain — même erreur. Chaque session repart de zéro.

Comment les autres gèrent ça

Comment Arc OS le résout

Reflect Loop — mémoire persistante automatique à partir des corrections.

Tu appuies sur "Fix It" ou "thumbs-down"
    → Le système écrit une règle dans learnings.md
    → La règle survit aux redémarrages
    → Injectée dans CHAQUE prompt futur automatiquement

Exemple de learnings.md après 2 semaines :

- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation

Résultat : Le système construit une "mémoire immunitaire". Une correction = règle permanente. La même erreur ne se reproduit jamais.


Problème 2 : "L'AI ne comprend pas le stack technologique de mon projet"

Le problème

Ton projet Odoo utilise Bootstrap, le framework Owl, les templates QWeb, Python. Ton SaaS utilise Tailwind, React, Next.js, TypeScript. Un bot AI générique confond les deux. Les conseils Odoo contaminent le contexte React. Les patterns React apparaissent dans le code Odoo.

Comment les autres gèrent ça

Comment Arc OS le résout

Architecture fédérée — un child bot par projet, isolation complète.

Master Bot
    ├── Child: odoo-site     (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
    │   ├── skills/library/odoo-expert.md
    │   ├── skills/library/odoo-owl-expert.md
    │   └── learnings.md: "Use t-call for i18n"
    │
    └── Child: saas-app      (CLAUDE.md: Next.js 15, React, Tailwind)
        ├── skills/library/react-patterns.md
        ├── skills/library/tailwind-expert.md
        └── learnings.md: "Prefer server components"

Bots Telegram différents. Répertoires de travail différents. Skills différentes. Mémoire différente. Ils ne voient jamais le contexte de l'autre.

Résultat : Guide complet dans Isolation des skills multi-projets.


Problème 3 : "L'AI génère du code non sécurisé et personne ne le détecte"

Le problème

L'AI suggère git push --force. Affiche un mot de passe dans un snippet de code. Recommande rm -rf /. Tu ne l'attrapes pas toujours. La réponse part en production.

Comment les autres gèrent ça

Comment Arc OS le résout

Moteur d'évaluation binaire — règles déclaratives qui vérifient chaque réponse avant la livraison.

{
  "rules": [
    { "name": "No force push", "type": "string_not_contains", "value": "--force" },
    { "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
    { "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
  ]
}

Les échecs apparaissent comme notes de bas de page sur la réponse :

[Réponse de Claude ici]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output

Les règles sont par skill, par projet. Ton projet Odoo vérifie la conformité QWeb. Ton projet React vérifie la manipulation directe du DOM.

Résultat : Porte qualité automatisée sur chaque sortie AI. Pas besoin de revue humaine pour la sécurité de base.


Problème 4 : "Je n'ai aucune idée si l'AI performe bien"

Le problème

Tu utilises l'AI depuis 3 mois. Est-ce vraiment bon ? Quelles skills fonctionnent ? Lesquelles échouent ? S'améliore-t-il ou se dégrade-t-il ? Pas de données. Pas de métriques. Juste de l'intuition.

Comment les autres gèrent ça

Comment Arc OS le résout

Quality Tracker + Karpathy Loop — métriques par skill avec propositions d'amélioration automatisées.

Chaque réponse est enregistrée :

{
  "type": "execution",
  "skills": ["code-review"],
  "success": true,
  "duration_ms": 12340,
  "response_length": 2847
}

Chaque bouton de feedback (thumbs-up/thumbs-down) est suivi par réponse :

La commande /quality affiche :
  code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
  git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s

À 3h du matin la Karpathy Loop se lance :

  1. Trouve les skills avec <80% de succès ou plus de feedback négatif que positif
  2. Envoie au CEO une carte de proposition dans Telegram
  3. Un tap : Approuver (backup + améliorer) ou Rejeter (ignorer)

Résultat : Gestion AI basée sur les données. Tu sais exactement ce qui fonctionne et ce qui ne fonctionne pas.


Problème 5 : "25 skills chargées à la fois = AI confus"

Le problème

Tu as 25 skills couvrant git, déploiement, revue de code, Figma, Odoo, tests, sécurité. Tout charger dans chaque prompt gaspille la fenêtre de contexte et perturbe le modèle. Il essaie d'appliquer des conseils de déploiement à une question de revue de code.

Comment les autres gèrent ça

Comment Arc OS le résout

Context Router — sélection intelligente de skills par message.

Utilisateur : "Review this code for XSS vulnerabilities"

Context Router score :
  code-review:          trigger "review" (2) + keyword "XSS" (1) = 3
  code-review-protocol: trigger "code review" (2)                 = 2
  system-audit:         no match                                  = 0
  git-manager:          no match                                  = 0

Injecte dans le prompt :
  SKILLS_HINT (focus on these):
  - code-review: Security audit and code quality review...
  - code-review-protocol: Structured code review with OWASP...

Seules les 5 skills les plus pertinentes sont suggérées. Claude a toujours accès à toutes les skills, mais se concentre sur les bonnes. Consultatif, pas restrictif — aucun risque de casser quoi que ce soit.

Résultat : Réponses ciblées et pertinentes. Pas de pollution de contexte par des skills non pertinentes.


Résumé

Problème Solution Arc OS Mécanisme
L'AI oublie les corrections Règles d'apprentissage persistantes Reflect Loop (learnings.md)
Mauvais contexte de stack technologique Child bots isolés Architecture fédérée
Sorties non sécurisées Validation déclarative Moteur d'évaluation binaire
Pas de données de performance Métriques par skill + analyse nocturne Quality Tracker + Karpathy Loop
Dilution du contexte Sélection intelligente de skills Context Router