Problemy, Które Rozwiązujemy

Pięć realnych bolączek programowania wspomaganego AI — i jak Arc OS eliminuje każdą z nich.

Ból 1: "AI zapomina wszystko między sesjami"

Problem

Spędzasz 30 minut ucząc Claude konwencji swojego projektu. Następna sesja — czysta karta. Korygujesz błąd. Jutro — ten sam błąd. Każda sesja zaczyna się od zera.

Jak Inni To Rozwiązują

ChatGPT: Custom Instructions (200 słów, jeden zestaw dla wszystkiego)
Cursor: Plik .cursorrules (ręczny, bez pętli feedbacku)
Ręcznie: Kopiuj-wklej swoje "reguły" do każdej rozmowy

Jak Arc OS To Rozwiązuje

Reflect Loop — automatyczna trwała pamięć z korekt.

Klikasz "Fix It" lub "thumbs-down"
    → System zapisuje regułę do learnings.md
    → Reguła przeżywa restarty
    → Wstrzykiwana do KAŻDEGO przyszłego promptu automatycznie

Przykładowy learnings.md po 2 tygodniach:

- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation

Rezultat: System buduje "pamięć immunologiczną". Jedna korekta = trwała reguła. Ten sam błąd nigdy się nie powtarza.

Ból 2: "AI nie rozumie stosu technologicznego mojego projektu"

Problem

Twój projekt Odoo używa Bootstrap, frameworka Owl, szablonów QWeb, Pythona. Twój SaaS używa Tailwind, React, Next.js, TypeScript. Generyczny bot AI myli te dwa projekty. Porady dla Odoo wyciekają do kontekstu React. Wzorce React pojawiają się w kodzie Odoo.

Jak Inni To Rozwiązują

ChatGPT: Jedna rozmowa per projekt (bez egzekwowania)
Cursor: Świadomy workspace, ale jedno okno kontekstu
Ręcznie: Ciągłe przypominanie AI, w którym projekcie jesteś

Jak Arc OS To Rozwiązuje

Federated Architecture — jeden child bot per projekt, pełna izolacja.

Master Bot
    ├── Child: odoo-site     (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
    │   ├── skills/library/odoo-expert.md
    │   ├── skills/library/odoo-owl-expert.md
    │   └── learnings.md: "Use t-call for i18n"
    │
    └── Child: saas-app      (CLAUDE.md: Next.js 15, React, Tailwind)
        ├── skills/library/react-patterns.md
        ├── skills/library/tailwind-expert.md
        └── learnings.md: "Prefer server components"

Różne boty Telegram. Różne katalogi robocze. Różne skille. Różna pamięć. Nigdy nie widzą nawzajem swojego kontekstu.

Rezultat: Pełny przewodnik w Izolacja Skilów w Wielu Projektach.

Ból 3: "AI generuje niebezpieczny kod i nikt tego nie wyłapuje"

Problem

AI sugeruje git push --force. Wypluwa hasło we fragmencie kodu. Rekomenduje rm -rf /. Nie zawsze to wyłapujesz. Odpowiedź trafia na produkcję.

Jak Inni To Rozwiązują

ChatGPT / Copilot: Brak walidacji outputu
Cursor: Tylko sprawdzanie składni
Ręcznie: Ludzki przegląd każdej odpowiedzi (nie skaluje się)

Jak Arc OS To Rozwiązuje

Binary Eval Engine — deklaratywne reguły sprawdzające każdą odpowiedź przed dostarczeniem.

{
  "rules": [
    { "name": "No force push", "type": "string_not_contains", "value": "--force" },
    { "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
    { "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
  ]
}

Błędy pojawiają się jako przypis do odpowiedzi:

[Odpowiedź Claude]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output

Reguły są per-skill, per-projekt. Twój projekt Odoo sprawdza zgodność z QWeb. Twój projekt React sprawdza bezpośrednią manipulację DOM.

Rezultat: Zautomatyzowana bramka jakości dla każdego outputu AI. Nie potrzebujesz ręcznego przeglądu dla podstawowego bezpieczeństwa.

Ból 4: "Nie mam pojęcia, czy AI działa dobrze"

Problem

Używasz AI od 3 miesięcy. Czy naprawdę jest dobry? Które skille działają? Które zawodzą? Czy się poprawia, czy pogarsza? Brak danych. Brak metryk. Tylko intuicja.

Jak Inni To Rozwiązują

ChatGPT: Historia rozmów (nieustrukturyzowana, bez metryk)
Copilot: Wskaźnik akceptacji (jedna liczba, bez szczegółów)
Ręcznie: Przeczucie

Jak Arc OS To Rozwiązuje

Quality Tracker + Karpathy Loop — metryki per-skill z automatycznymi propozycjami ulepszeń.

Każda odpowiedź jest logowana:

{
  "type": "execution",
  "skills": ["code-review"],
  "success": true,
  "duration_ms": 12340,
  "response_length": 2847
}

Każdy przycisk feedbacku (thumbs-up/thumbs-down) jest śledzony per odpowiedź:

Komenda /quality pokazuje:
  code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
  git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s

O 3:00 w nocy uruchamia się Karpathy Loop:

Znajduje skille z <80% sukcesem lub więcej negatywnego niż pozytywnego feedbacku
Wysyła CEO kartę propozycji w Telegramie
Jedno tapnięcie: Zatwierdź (backup + ulepszenie) lub Odrzuć (wyrzuć)

Rezultat: Zarządzanie AI oparte na danych. Wiesz dokładnie, co działa, a co nie.

Ból 5: "25 skilów załadowanych naraz = zdezorientowane AI"

Problem

Masz 25 skilów obejmujących git, deployment, code review, Figma, Odoo, testowanie, bezpieczeństwo. Ładowanie wszystkich do każdego promptu marnuje okno kontekstu i dezorientuje model. Próbuje stosować porady deploymentowe do pytania o code review.

Jak Inni To Rozwiązują

ChatGPT: Brak systemu skilów
Cursor: Wszystkie reguły zawsze załadowane
Ręcznie: Komentowanie nieistotnych reguł per zadanie

Jak Arc OS To Rozwiązuje

Context Router — inteligentny dobór skilów per wiadomość.

Użytkownik: "Przejrzyj ten kod pod kątem podatności XSS"

Context Router ocenia:
  code-review:          trigger "review" (2) + keyword "XSS" (1) = 3
  code-review-protocol: trigger "code review" (2)                 = 2
  system-audit:         brak dopasowania                          = 0
  git-manager:          brak dopasowania                          = 0

Wstrzykuje do promptu:
  SKILLS_HINT (skup się na tych):
  - code-review: Audyt bezpieczeństwa i przegląd jakości kodu...
  - code-review-protocol: Ustrukturyzowany code review z OWASP...

Sugerowane są tylko top-5 relewantnych skilów. Claude nadal ma dostęp do wszystkich skilów, ale skupia się na właściwych. Doradcze, nie restrykcyjne — żadnego ryzyka zepsucia czegokolwiek.

Rezultat: Skupione, relewantne odpowiedzi. Brak zanieczyszczenia kontekstu nieistotnymi skilami.

Podsumowanie

Ból	Rozwiązanie Arc OS	Mechanizm
AI zapomina korekty	Trwałe reguły uczenia	Reflect Loop (`learnings.md`)
Błędny kontekst stosu technologicznego	Izolowane child boty	Federated Architecture
Niebezpieczny output	Deklaratywna walidacja	Binary Eval Engine
Brak danych o wydajności	Metryki per-skill + nocna analiza	Quality Tracker + Karpathy Loop
Rozcieńczenie kontekstu	Inteligentny dobór skilów	Context Router