Probleme, die wir lösen

Fünf echte Schmerzen der KI-gestützten Entwicklung — und wie Arc OS sie beseitigt.


Schmerz 1: „KI vergisst zwischen Sitzungen alles"

Das Problem

Du verbringst 30 Minuten damit, Claude deine Projektkonventionen beizubringen. Nächste Sitzung — leere Tafel. Du korrigierst einen Fehler. Morgen — derselbe Fehler. Jede Sitzung beginnt von vorne.

Wie andere damit umgehen

Wie Arc OS es löst

Reflect Loop — automatisches persistentes Gedächtnis aus Korrekturen.

Du drückst „Fix It" oder „Daumen runter"
    → System schreibt Regel in learnings.md
    → Regel überlebt Neustarts
    → Wird automatisch in JEDEN zukünftigen Prompt injiziert

Beispiel learnings.md nach 2 Wochen:

- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation

Ergebnis: Das System baut „Immungedächtnis" auf. Eine Korrektur = permanente Regel. Derselbe Fehler passiert nie wieder.


Schmerz 2: „KI versteht den Tech-Stack meines Projekts nicht"

Das Problem

Dein Odoo-Projekt nutzt Bootstrap, das Owl-Framework, QWeb-Templates, Python. Dein SaaS nutzt Tailwind, React, Next.js, TypeScript. Ein generischer AI-Bot verwechselt beides. Odoo-Ratschläge fließen in den React-Kontext ein. React-Muster erscheinen im Odoo-Code.

Wie andere damit umgehen

Wie Arc OS es löst

Föderierte Architektur — ein Child Bot pro Projekt, vollständige Isolierung.

Master Bot
    ├── Child: odoo-site     (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
    │   ├── skills/library/odoo-expert.md
    │   ├── skills/library/odoo-owl-expert.md
    │   └── learnings.md: "Use t-call for i18n"
    │
    └── Child: saas-app      (CLAUDE.md: Next.js 15, React, Tailwind)
        ├── skills/library/react-patterns.md
        ├── skills/library/tailwind-expert.md
        └── learnings.md: "Prefer server components"

Verschiedene Telegram-Bots. Verschiedene Arbeitsverzeichnisse. Verschiedene Skills. Verschiedenes Gedächtnis. Sie sehen nie den Kontext des anderen.

Ergebnis: Vollständiger Leitfaden in Multi-Projekt Skill-Isolierung.


Schmerz 3: „KI generiert unsicheren Code und niemand bemerkt es"

Das Problem

KI schlägt git push --force vor. Gibt ein Passwort in einem Code-Snippet aus. Empfiehlt rm -rf /. Du bemerkst es nicht immer. Die Antwort geht in die Produktion.

Wie andere damit umgehen

Wie Arc OS es löst

Binary Eval Engine — deklarative Regeln, die jede Antwort vor der Auslieferung prüfen.

{
  "rules": [
    { "name": "No force push", "type": "string_not_contains", "value": "--force" },
    { "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
    { "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
  ]
}

Fehlschläge erscheinen als Fußnoten bei der Antwort:

[Claude's response here]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output

Regeln sind pro Skill, pro Projekt. Dein Odoo-Projekt prüft auf QWeb-Compliance. Dein React-Projekt prüft auf direkte DOM-Manipulation.

Ergebnis: Automatisiertes Qualitäts-Gate bei jeder KI-Ausgabe. Keine menschliche Überprüfung für grundlegende Sicherheit nötig.


Schmerz 4: „Ich habe keine Ahnung, ob die KI gut performt"

Das Problem

Du nutzt KI seit 3 Monaten. Ist sie eigentlich gut? Welche Skills funktionieren? Welche schlagen fehl? Wird sie besser oder schlechter? Keine Daten. Keine Metriken. Nur Bauchgefühl.

Wie andere damit umgehen

Wie Arc OS es löst

Quality Tracker + Karpathy Loop — Pro-Skill-Metriken mit automatisierten Verbesserungsvorschlägen.

Jede Antwort wird protokolliert:

{
  "type": "execution",
  "skills": ["code-review"],
  "success": true,
  "duration_ms": 12340,
  "response_length": 2847
}

Jede Feedback-Schaltfläche (Daumen hoch/runter) wird pro Antwort verfolgt:

/quality Befehl zeigt:
  code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
  git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s

Um 3:00 Uhr morgens läuft der Karpathy Loop:

  1. Findet Skills mit <80% Erfolg oder mehr negativem als positivem Feedback
  2. Sendet dem CEO eine Vorschlagskarte in Telegram
  3. Ein Tipp: Genehmigen (Backup + Verbessern) oder Ablehnen (Verwerfen)

Ergebnis: Datengetriebenes KI-Management. Du weißt genau, was funktioniert und was nicht.


Schmerz 5: „25 Skills auf einmal geladen = verwirrte KI"

Das Problem

Du hast 25 Skills für Git, Deployment, Code-Review, Figma, Odoo, Testing, Security. Alle in jeden Prompt zu laden verschwendet das Kontextfenster und verwirrt das Modell. Es versucht, Deployment-Ratschläge auf eine Code-Review-Frage anzuwenden.

Wie andere damit umgehen

Wie Arc OS es löst

Context Router — intelligente Skill-Auswahl pro Nachricht.

Nutzer: "Review this code for XSS vulnerabilities"

Context Router bewertet:
  code-review:          trigger "review" (2) + keyword "XSS" (1) = 3
  code-review-protocol: trigger "code review" (2)                 = 2
  system-audit:         no match                                  = 0
  git-manager:          no match                                  = 0

Injiziert in Prompt:
  SKILLS_HINT (focus on these):
  - code-review: Security audit and code quality review...
  - code-review-protocol: Structured code review with OWASP...

Nur die Top-5-relevanten Skills werden vorgeschlagen. Claude hat noch Zugriff auf alle Skills, konzentriert sich aber auf die richtigen. Beratend, nicht einschränkend — kein Risiko, etwas zu beschädigen.

Ergebnis: Fokussierte, relevante Antworten. Keine Kontextverschmutzung durch irrelevante Skills.


Zusammenfassung

Schmerz Arc OS-Lösung Mechanismus
KI vergisst Korrekturen Persistente Lernregeln Reflect Loop (learnings.md)
Falscher Tech-Stack-Kontext Isolierte Child Bots Föderierte Architektur
Unsichere Ausgabe Deklarative Validierung Binary Eval Engine
Keine Performance-Daten Pro-Skill-Metriken + nächtliche Analyse Quality Tracker + Karpathy Loop
Kontext-Verwässerung Intelligente Skill-Auswahl Context Router