Probleme, die wir lösen
Fünf echte Schmerzen der KI-gestützten Entwicklung — und wie Arc OS sie beseitigt.
Schmerz 1: „KI vergisst zwischen Sitzungen alles"
Das Problem
Du verbringst 30 Minuten damit, Claude deine Projektkonventionen beizubringen. Nächste Sitzung — leere Tafel. Du korrigierst einen Fehler. Morgen — derselbe Fehler. Jede Sitzung beginnt von vorne.
Wie andere damit umgehen
- ChatGPT: Custom Instructions (200 Wörter, ein Set für alles)
- Cursor:
.cursorrules-Datei (manuell, kein Feedback-Loop) - Manuell: Deine „Regeln" in jedes Gespräch kopieren und einfügen
Wie Arc OS es löst
Reflect Loop — automatisches persistentes Gedächtnis aus Korrekturen.
Du drückst „Fix It" oder „Daumen runter"
→ System schreibt Regel in learnings.md
→ Regel überlebt Neustarts
→ Wird automatisch in JEDEN zukünftigen Prompt injiziert
Beispiel learnings.md nach 2 Wochen:
- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation
Ergebnis: Das System baut „Immungedächtnis" auf. Eine Korrektur = permanente Regel. Derselbe Fehler passiert nie wieder.
Schmerz 2: „KI versteht den Tech-Stack meines Projekts nicht"
Das Problem
Dein Odoo-Projekt nutzt Bootstrap, das Owl-Framework, QWeb-Templates, Python. Dein SaaS nutzt Tailwind, React, Next.js, TypeScript. Ein generischer AI-Bot verwechselt beides. Odoo-Ratschläge fließen in den React-Kontext ein. React-Muster erscheinen im Odoo-Code.
Wie andere damit umgehen
- ChatGPT: Ein Gespräch pro Projekt (keine Durchsetzung)
- Cursor: Workspace-bewusst, aber einzelnes Kontextfenster
- Manuell: KI ständig daran erinnern, in welchem Projekt man ist
Wie Arc OS es löst
Föderierte Architektur — ein Child Bot pro Projekt, vollständige Isolierung.
Master Bot
├── Child: odoo-site (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
│ ├── skills/library/odoo-expert.md
│ ├── skills/library/odoo-owl-expert.md
│ └── learnings.md: "Use t-call for i18n"
│
└── Child: saas-app (CLAUDE.md: Next.js 15, React, Tailwind)
├── skills/library/react-patterns.md
├── skills/library/tailwind-expert.md
└── learnings.md: "Prefer server components"
Verschiedene Telegram-Bots. Verschiedene Arbeitsverzeichnisse. Verschiedene Skills. Verschiedenes Gedächtnis. Sie sehen nie den Kontext des anderen.
Ergebnis: Vollständiger Leitfaden in Multi-Projekt Skill-Isolierung.
Schmerz 3: „KI generiert unsicheren Code und niemand bemerkt es"
Das Problem
KI schlägt git push --force vor. Gibt ein Passwort in einem Code-Snippet aus. Empfiehlt rm -rf /. Du bemerkst es nicht immer. Die Antwort geht in die Produktion.
Wie andere damit umgehen
- ChatGPT / Copilot: Keine Ausgabe-Validierung überhaupt
- Cursor: Nur Syntaxprüfung
- Manuell: Jede Antwort manuell prüfen (skaliert nicht)
Wie Arc OS es löst
Binary Eval Engine — deklarative Regeln, die jede Antwort vor der Auslieferung prüfen.
{
"rules": [
{ "name": "No force push", "type": "string_not_contains", "value": "--force" },
{ "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
{ "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
]
}
Fehlschläge erscheinen als Fußnoten bei der Antwort:
[Claude's response here]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output
Regeln sind pro Skill, pro Projekt. Dein Odoo-Projekt prüft auf QWeb-Compliance. Dein React-Projekt prüft auf direkte DOM-Manipulation.
Ergebnis: Automatisiertes Qualitäts-Gate bei jeder KI-Ausgabe. Keine menschliche Überprüfung für grundlegende Sicherheit nötig.
Schmerz 4: „Ich habe keine Ahnung, ob die KI gut performt"
Das Problem
Du nutzt KI seit 3 Monaten. Ist sie eigentlich gut? Welche Skills funktionieren? Welche schlagen fehl? Wird sie besser oder schlechter? Keine Daten. Keine Metriken. Nur Bauchgefühl.
Wie andere damit umgehen
- ChatGPT: Gesprächsverlauf (unstrukturiert, keine Metriken)
- Copilot: Akzeptanzrate (eine Zahl, keine Details)
- Manuell: Bauchgefühl
Wie Arc OS es löst
Quality Tracker + Karpathy Loop — Pro-Skill-Metriken mit automatisierten Verbesserungsvorschlägen.
Jede Antwort wird protokolliert:
{
"type": "execution",
"skills": ["code-review"],
"success": true,
"duration_ms": 12340,
"response_length": 2847
}
Jede Feedback-Schaltfläche (Daumen hoch/runter) wird pro Antwort verfolgt:
/quality Befehl zeigt:
code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s
Um 3:00 Uhr morgens läuft der Karpathy Loop:
- Findet Skills mit <80% Erfolg oder mehr negativem als positivem Feedback
- Sendet dem CEO eine Vorschlagskarte in Telegram
- Ein Tipp: Genehmigen (Backup + Verbessern) oder Ablehnen (Verwerfen)
Ergebnis: Datengetriebenes KI-Management. Du weißt genau, was funktioniert und was nicht.
Schmerz 5: „25 Skills auf einmal geladen = verwirrte KI"
Das Problem
Du hast 25 Skills für Git, Deployment, Code-Review, Figma, Odoo, Testing, Security. Alle in jeden Prompt zu laden verschwendet das Kontextfenster und verwirrt das Modell. Es versucht, Deployment-Ratschläge auf eine Code-Review-Frage anzuwenden.
Wie andere damit umgehen
- ChatGPT: Kein Skill-System überhaupt
- Cursor: Alle Regeln immer geladen
- Manuell: Irrelevante Regeln pro Aufgabe auskommentieren
Wie Arc OS es löst
Context Router — intelligente Skill-Auswahl pro Nachricht.
Nutzer: "Review this code for XSS vulnerabilities"
Context Router bewertet:
code-review: trigger "review" (2) + keyword "XSS" (1) = 3
code-review-protocol: trigger "code review" (2) = 2
system-audit: no match = 0
git-manager: no match = 0
Injiziert in Prompt:
SKILLS_HINT (focus on these):
- code-review: Security audit and code quality review...
- code-review-protocol: Structured code review with OWASP...
Nur die Top-5-relevanten Skills werden vorgeschlagen. Claude hat noch Zugriff auf alle Skills, konzentriert sich aber auf die richtigen. Beratend, nicht einschränkend — kein Risiko, etwas zu beschädigen.
Ergebnis: Fokussierte, relevante Antworten. Keine Kontextverschmutzung durch irrelevante Skills.
Zusammenfassung
| Schmerz | Arc OS-Lösung | Mechanismus |
|---|---|---|
| KI vergisst Korrekturen | Persistente Lernregeln | Reflect Loop (learnings.md) |
| Falscher Tech-Stack-Kontext | Isolierte Child Bots | Föderierte Architektur |
| Unsichere Ausgabe | Deklarative Validierung | Binary Eval Engine |
| Keine Performance-Daten | Pro-Skill-Metriken + nächtliche Analyse | Quality Tracker + Karpathy Loop |
| Kontext-Verwässerung | Intelligente Skill-Auswahl | Context Router |