Problemy, Które Rozwiązujemy
Pięć realnych bolączek programowania wspomaganego AI — i jak Arc OS eliminuje każdą z nich.
Ból 1: "AI zapomina wszystko między sesjami"
Problem
Spędzasz 30 minut ucząc Claude konwencji swojego projektu. Następna sesja — czysta karta. Korygujesz błąd. Jutro — ten sam błąd. Każda sesja zaczyna się od zera.
Jak Inni To Rozwiązują
- ChatGPT: Custom Instructions (200 słów, jeden zestaw dla wszystkiego)
- Cursor: Plik
.cursorrules(ręczny, bez pętli feedbacku) - Ręcznie: Kopiuj-wklej swoje "reguły" do każdej rozmowy
Jak Arc OS To Rozwiązuje
Reflect Loop — automatyczna trwała pamięć z korekt.
Klikasz "Fix It" lub "thumbs-down"
→ System zapisuje regułę do learnings.md
→ Reguła przeżywa restarty
→ Wstrzykiwana do KAŻDEGO przyszłego promptu automatycznie
Przykładowy learnings.md po 2 tygodniach:
- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation
Rezultat: System buduje "pamięć immunologiczną". Jedna korekta = trwała reguła. Ten sam błąd nigdy się nie powtarza.
Ból 2: "AI nie rozumie stosu technologicznego mojego projektu"
Problem
Twój projekt Odoo używa Bootstrap, frameworka Owl, szablonów QWeb, Pythona. Twój SaaS używa Tailwind, React, Next.js, TypeScript. Generyczny bot AI myli te dwa projekty. Porady dla Odoo wyciekają do kontekstu React. Wzorce React pojawiają się w kodzie Odoo.
Jak Inni To Rozwiązują
- ChatGPT: Jedna rozmowa per projekt (bez egzekwowania)
- Cursor: Świadomy workspace, ale jedno okno kontekstu
- Ręcznie: Ciągłe przypominanie AI, w którym projekcie jesteś
Jak Arc OS To Rozwiązuje
Federated Architecture — jeden child bot per projekt, pełna izolacja.
Master Bot
├── Child: odoo-site (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
│ ├── skills/library/odoo-expert.md
│ ├── skills/library/odoo-owl-expert.md
│ └── learnings.md: "Use t-call for i18n"
│
└── Child: saas-app (CLAUDE.md: Next.js 15, React, Tailwind)
├── skills/library/react-patterns.md
├── skills/library/tailwind-expert.md
└── learnings.md: "Prefer server components"
Różne boty Telegram. Różne katalogi robocze. Różne skille. Różna pamięć. Nigdy nie widzą nawzajem swojego kontekstu.
Rezultat: Pełny przewodnik w Izolacja Skilów w Wielu Projektach.
Ból 3: "AI generuje niebezpieczny kod i nikt tego nie wyłapuje"
Problem
AI sugeruje git push --force. Wypluwa hasło we fragmencie kodu. Rekomenduje rm -rf /. Nie zawsze to wyłapujesz. Odpowiedź trafia na produkcję.
Jak Inni To Rozwiązują
- ChatGPT / Copilot: Brak walidacji outputu
- Cursor: Tylko sprawdzanie składni
- Ręcznie: Ludzki przegląd każdej odpowiedzi (nie skaluje się)
Jak Arc OS To Rozwiązuje
Binary Eval Engine — deklaratywne reguły sprawdzające każdą odpowiedź przed dostarczeniem.
{
"rules": [
{ "name": "No force push", "type": "string_not_contains", "value": "--force" },
{ "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
{ "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
]
}
Błędy pojawiają się jako przypis do odpowiedzi:
[Odpowiedź Claude]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output
Reguły są per-skill, per-projekt. Twój projekt Odoo sprawdza zgodność z QWeb. Twój projekt React sprawdza bezpośrednią manipulację DOM.
Rezultat: Zautomatyzowana bramka jakości dla każdego outputu AI. Nie potrzebujesz ręcznego przeglądu dla podstawowego bezpieczeństwa.
Ból 4: "Nie mam pojęcia, czy AI działa dobrze"
Problem
Używasz AI od 3 miesięcy. Czy naprawdę jest dobry? Które skille działają? Które zawodzą? Czy się poprawia, czy pogarsza? Brak danych. Brak metryk. Tylko intuicja.
Jak Inni To Rozwiązują
- ChatGPT: Historia rozmów (nieustrukturyzowana, bez metryk)
- Copilot: Wskaźnik akceptacji (jedna liczba, bez szczegółów)
- Ręcznie: Przeczucie
Jak Arc OS To Rozwiązuje
Quality Tracker + Karpathy Loop — metryki per-skill z automatycznymi propozycjami ulepszeń.
Każda odpowiedź jest logowana:
{
"type": "execution",
"skills": ["code-review"],
"success": true,
"duration_ms": 12340,
"response_length": 2847
}
Każdy przycisk feedbacku (thumbs-up/thumbs-down) jest śledzony per odpowiedź:
Komenda /quality pokazuje:
code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s
O 3:00 w nocy uruchamia się Karpathy Loop:
- Znajduje skille z <80% sukcesem lub więcej negatywnego niż pozytywnego feedbacku
- Wysyła CEO kartę propozycji w Telegramie
- Jedno tapnięcie: Zatwierdź (backup + ulepszenie) lub Odrzuć (wyrzuć)
Rezultat: Zarządzanie AI oparte na danych. Wiesz dokładnie, co działa, a co nie.
Ból 5: "25 skilów załadowanych naraz = zdezorientowane AI"
Problem
Masz 25 skilów obejmujących git, deployment, code review, Figma, Odoo, testowanie, bezpieczeństwo. Ładowanie wszystkich do każdego promptu marnuje okno kontekstu i dezorientuje model. Próbuje stosować porady deploymentowe do pytania o code review.
Jak Inni To Rozwiązują
- ChatGPT: Brak systemu skilów
- Cursor: Wszystkie reguły zawsze załadowane
- Ręcznie: Komentowanie nieistotnych reguł per zadanie
Jak Arc OS To Rozwiązuje
Context Router — inteligentny dobór skilów per wiadomość.
Użytkownik: "Przejrzyj ten kod pod kątem podatności XSS"
Context Router ocenia:
code-review: trigger "review" (2) + keyword "XSS" (1) = 3
code-review-protocol: trigger "code review" (2) = 2
system-audit: brak dopasowania = 0
git-manager: brak dopasowania = 0
Wstrzykuje do promptu:
SKILLS_HINT (skup się na tych):
- code-review: Audyt bezpieczeństwa i przegląd jakości kodu...
- code-review-protocol: Ustrukturyzowany code review z OWASP...
Sugerowane są tylko top-5 relewantnych skilów. Claude nadal ma dostęp do wszystkich skilów, ale skupia się na właściwych. Doradcze, nie restrykcyjne — żadnego ryzyka zepsucia czegokolwiek.
Rezultat: Skupione, relewantne odpowiedzi. Brak zanieczyszczenia kontekstu nieistotnymi skilami.
Podsumowanie
| Ból | Rozwiązanie Arc OS | Mechanizm |
|---|---|---|
| AI zapomina korekty | Trwałe reguły uczenia | Reflect Loop (learnings.md) |
| Błędny kontekst stosu technologicznego | Izolowane child boty | Federated Architecture |
| Niebezpieczny output | Deklaratywna walidacja | Binary Eval Engine |
| Brak danych o wydajności | Metryki per-skill + nocna analiza | Quality Tracker + Karpathy Loop |
| Rozcieńczenie kontekstu | Inteligentny dobór skilów | Context Router |