Probleme, die wir lösen

Fünf echte Schmerzen der KI-gestützten Entwicklung — und wie Arc OS sie beseitigt.

Schmerz 1: „KI vergisst zwischen Sitzungen alles"

Das Problem

Du verbringst 30 Minuten damit, Claude deine Projektkonventionen beizubringen. Nächste Sitzung — leere Tafel. Du korrigierst einen Fehler. Morgen — derselbe Fehler. Jede Sitzung beginnt von vorne.

Wie andere damit umgehen

ChatGPT: Custom Instructions (200 Wörter, ein Set für alles)
Cursor: .cursorrules-Datei (manuell, kein Feedback-Loop)
Manuell: Deine „Regeln" in jedes Gespräch kopieren und einfügen

Wie Arc OS es löst

Reflect Loop — automatisches persistentes Gedächtnis aus Korrekturen.

Du drückst „Fix It" oder „Daumen runter"
    → System schreibt Regel in learnings.md
    → Regel überlebt Neustarts
    → Wird automatisch in JEDEN zukünftigen Prompt injiziert

Beispiel learnings.md nach 2 Wochen:

- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation

Ergebnis: Das System baut „Immungedächtnis" auf. Eine Korrektur = permanente Regel. Derselbe Fehler passiert nie wieder.

Schmerz 2: „KI versteht den Tech-Stack meines Projekts nicht"

Das Problem

Dein Odoo-Projekt nutzt Bootstrap, das Owl-Framework, QWeb-Templates, Python. Dein SaaS nutzt Tailwind, React, Next.js, TypeScript. Ein generischer AI-Bot verwechselt beides. Odoo-Ratschläge fließen in den React-Kontext ein. React-Muster erscheinen im Odoo-Code.

Wie andere damit umgehen

ChatGPT: Ein Gespräch pro Projekt (keine Durchsetzung)
Cursor: Workspace-bewusst, aber einzelnes Kontextfenster
Manuell: KI ständig daran erinnern, in welchem Projekt man ist

Wie Arc OS es löst

Föderierte Architektur — ein Child Bot pro Projekt, vollständige Isolierung.

Master Bot
    ├── Child: odoo-site     (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
    │   ├── skills/library/odoo-expert.md
    │   ├── skills/library/odoo-owl-expert.md
    │   └── learnings.md: "Use t-call for i18n"
    │
    └── Child: saas-app      (CLAUDE.md: Next.js 15, React, Tailwind)
        ├── skills/library/react-patterns.md
        ├── skills/library/tailwind-expert.md
        └── learnings.md: "Prefer server components"

Verschiedene Telegram-Bots. Verschiedene Arbeitsverzeichnisse. Verschiedene Skills. Verschiedenes Gedächtnis. Sie sehen nie den Kontext des anderen.

Ergebnis: Vollständiger Leitfaden in Multi-Projekt Skill-Isolierung.

Schmerz 3: „KI generiert unsicheren Code und niemand bemerkt es"

Das Problem

KI schlägt git push --force vor. Gibt ein Passwort in einem Code-Snippet aus. Empfiehlt rm -rf /. Du bemerkst es nicht immer. Die Antwort geht in die Produktion.

Wie andere damit umgehen

ChatGPT / Copilot: Keine Ausgabe-Validierung überhaupt
Cursor: Nur Syntaxprüfung
Manuell: Jede Antwort manuell prüfen (skaliert nicht)

Wie Arc OS es löst

Binary Eval Engine — deklarative Regeln, die jede Antwort vor der Auslieferung prüfen.

{
  "rules": [
    { "name": "No force push", "type": "string_not_contains", "value": "--force" },
    { "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
    { "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
  ]
}

Fehlschläge erscheinen als Fußnoten bei der Antwort:

[Claude's response here]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output

Regeln sind pro Skill, pro Projekt. Dein Odoo-Projekt prüft auf QWeb-Compliance. Dein React-Projekt prüft auf direkte DOM-Manipulation.

Ergebnis: Automatisiertes Qualitäts-Gate bei jeder KI-Ausgabe. Keine menschliche Überprüfung für grundlegende Sicherheit nötig.

Schmerz 4: „Ich habe keine Ahnung, ob die KI gut performt"

Das Problem

Du nutzt KI seit 3 Monaten. Ist sie eigentlich gut? Welche Skills funktionieren? Welche schlagen fehl? Wird sie besser oder schlechter? Keine Daten. Keine Metriken. Nur Bauchgefühl.

Wie andere damit umgehen

ChatGPT: Gesprächsverlauf (unstrukturiert, keine Metriken)
Copilot: Akzeptanzrate (eine Zahl, keine Details)
Manuell: Bauchgefühl

Wie Arc OS es löst

Quality Tracker + Karpathy Loop — Pro-Skill-Metriken mit automatisierten Verbesserungsvorschlägen.

Jede Antwort wird protokolliert:

{
  "type": "execution",
  "skills": ["code-review"],
  "success": true,
  "duration_ms": 12340,
  "response_length": 2847
}

Jede Feedback-Schaltfläche (Daumen hoch/runter) wird pro Antwort verfolgt:

/quality Befehl zeigt:
  code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
  git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s

Um 3:00 Uhr morgens läuft der Karpathy Loop:

Findet Skills mit <80% Erfolg oder mehr negativem als positivem Feedback
Sendet dem CEO eine Vorschlagskarte in Telegram
Ein Tipp: Genehmigen (Backup + Verbessern) oder Ablehnen (Verwerfen)

Ergebnis: Datengetriebenes KI-Management. Du weißt genau, was funktioniert und was nicht.

Schmerz 5: „25 Skills auf einmal geladen = verwirrte KI"

Das Problem

Du hast 25 Skills für Git, Deployment, Code-Review, Figma, Odoo, Testing, Security. Alle in jeden Prompt zu laden verschwendet das Kontextfenster und verwirrt das Modell. Es versucht, Deployment-Ratschläge auf eine Code-Review-Frage anzuwenden.

Wie andere damit umgehen

ChatGPT: Kein Skill-System überhaupt
Cursor: Alle Regeln immer geladen
Manuell: Irrelevante Regeln pro Aufgabe auskommentieren

Wie Arc OS es löst

Context Router — intelligente Skill-Auswahl pro Nachricht.

Nutzer: "Review this code for XSS vulnerabilities"

Context Router bewertet:
  code-review:          trigger "review" (2) + keyword "XSS" (1) = 3
  code-review-protocol: trigger "code review" (2)                 = 2
  system-audit:         no match                                  = 0
  git-manager:          no match                                  = 0

Injiziert in Prompt:
  SKILLS_HINT (focus on these):
  - code-review: Security audit and code quality review...
  - code-review-protocol: Structured code review with OWASP...

Nur die Top-5-relevanten Skills werden vorgeschlagen. Claude hat noch Zugriff auf alle Skills, konzentriert sich aber auf die richtigen. Beratend, nicht einschränkend — kein Risiko, etwas zu beschädigen.

Ergebnis: Fokussierte, relevante Antworten. Keine Kontextverschmutzung durch irrelevante Skills.

Zusammenfassung

Schmerz	Arc OS-Lösung	Mechanismus
KI vergisst Korrekturen	Persistente Lernregeln	Reflect Loop (`learnings.md`)
Falscher Tech-Stack-Kontext	Isolierte Child Bots	Föderierte Architektur
Unsichere Ausgabe	Deklarative Validierung	Binary Eval Engine
Keine Performance-Daten	Pro-Skill-Metriken + nächtliche Analyse	Quality Tracker + Karpathy Loop
Kontext-Verwässerung	Intelligente Skill-Auswahl	Context Router