Problemas que resolvemos

Cinco dolores reales del desarrollo asistido por IA — y cómo Arc OS elimina cada uno.

Dolor 1: "La IA lo olvida todo entre sesiones"

El problema

Pasas 30 minutos enseñando a Claude las convenciones de tu proyecto. A la siguiente sesión — borrón y cuenta nueva. Corriges un error. Al día siguiente — el mismo error. Cada sesión empieza desde cero.

Cómo lo manejan otros

ChatGPT: Custom Instructions (200 palabras, un conjunto para todo)
Cursor: archivo .cursorrules (manual, sin bucle de feedback)
Manual: copiar y pegar tus "reglas" en cada conversación

Cómo lo resuelve Arc OS

Reflect Loop — memoria persistente automática a partir de las correcciones.

Pulsas "Fix It" o "thumbs-down"
    → El sistema escribe la regla en learnings.md
    → La regla sobrevive a los reinicios
    → Se inyecta en CADA prompt futuro automáticamente

Ejemplo de learnings.md después de 2 semanas:

- [2026-03-20] [fixit] Always use t-call for translations in Odoo QWeb
- [2026-03-21] [negative] Avoid sudo in deployment scripts
- [2026-03-25] [fixit] Use server components by default in Next.js 15
- [2026-04-01] [negative] Don't suggest rm -rf without confirmation

Resultado: El sistema construye "memoria inmune". Una corrección = regla permanente. El mismo error no vuelve a ocurrir.

Dolor 2: "La IA no entiende el stack tecnológico de mi proyecto"

El problema

Tu proyecto Odoo usa Bootstrap, framework Owl, plantillas QWeb, Python. Tu SaaS usa Tailwind, React, Next.js, TypeScript. Un bot genérico los confunde. Los consejos de Odoo se filtran en el contexto de React. Los patrones de React aparecen en el código de Odoo.

Cómo lo manejan otros

ChatGPT: Una conversación por proyecto (sin aplicación)
Cursor: Consciente del workspace pero con una única ventana de contexto
Manual: Recordarle constantemente a la IA en qué proyecto estás

Cómo lo resuelve Arc OS

Arquitectura federada — un child bot por proyecto, aislamiento completo.

Master Bot
    ├── Child: odoo-site     (CLAUDE.md: Odoo 17, Bootstrap, QWeb)
    │   ├── skills/library/odoo-expert.md
    │   ├── skills/library/odoo-owl-expert.md
    │   └── learnings.md: "Use t-call for i18n"
    │
    └── Child: saas-app      (CLAUDE.md: Next.js 15, React, Tailwind)
        ├── skills/library/react-patterns.md
        ├── skills/library/tailwind-expert.md
        └── learnings.md: "Prefer server components"

Bots de Telegram diferentes. Directorios de trabajo diferentes. Skills diferentes. Memoria diferente. Nunca ven el contexto del otro.

Resultado: Guía completa en Aislamiento de skills entre proyectos.

Dolor 3: "La IA genera código inseguro y nadie lo detecta"

El problema

La IA sugiere git push --force. Saca una contraseña en un fragmento de código. Recomienda rm -rf /. No siempre lo ves. La respuesta va a producción.

Cómo lo manejan otros

ChatGPT / Copilot: Sin validación de salida en absoluto
Cursor: Solo comprobación de sintaxis
Manual: Revisión humana de cada respuesta (no escala)

Cómo lo resuelve Arc OS

Motor de Binary Evals — reglas declarativas que comprueban cada respuesta antes de la entrega.

{
  "rules": [
    { "name": "No force push", "type": "string_not_contains", "value": "--force" },
    { "name": "No credentials", "type": "regex_not_match", "pattern": "(password|token)\\s*[:=]\\s*\\w{8,}" },
    { "name": "Response under 5000 chars", "type": "max_length", "value": 5000 }
  ]
}

Los fallos aparecen como notas a pie de página en la respuesta:

[Respuesta de Claude aquí]
---
Eval: ⚠️ No force push | ⚠️ No credentials in output

Las reglas son por skill, por proyecto. Tu proyecto Odoo verifica el cumplimiento de QWeb. Tu proyecto React verifica la manipulación directa del DOM.

Resultado: Barrera de calidad automatizada en cada salida de IA. No se necesita revisión humana para la seguridad básica.

Dolor 4: "No tengo idea de si la IA está funcionando bien"

El problema

Llevas 3 meses usando IA. ¿Realmente es buena? ¿Qué skills funcionan? ¿Cuáles fallan? ¿Está mejorando o empeorando? Sin datos. Sin métricas. Solo sensaciones.

Cómo lo manejan otros

ChatGPT: Historial de conversación (desestructurado, sin métricas)
Copilot: Tasa de aceptación (un número, sin detalle)
Manual: Instinto

Cómo lo resuelve Arc OS

Quality Tracker + Karpathy Loop — métricas por skill con propuestas de mejora automatizadas.

Cada respuesta se registra:

{
  "type": "execution",
  "skills": ["code-review"],
  "success": true,
  "duration_ms": 12340,
  "response_length": 2847
}

Cada botón de feedback (thumbs-up/thumbs-down) se registra por respuesta:

El comando /quality muestra:
  code-review: 45x, 91% ok, thumbs-up 12/thumbs-down 2, avg 8.3s
  git-manager: 23x, 78% ok, thumbs-up 5/thumbs-down 4, avg 3.1s

A las 3:00 AM el Karpathy Loop se ejecuta:

Encuentra skills con <80% de éxito o más feedback negativo que positivo
Envía al CEO una tarjeta de propuesta en Telegram
Un toque: Aprobar (backup + mejorar) o Rechazar (descartar)

Resultado: Gestión de IA basada en datos. Sabes exactamente qué funciona y qué no.

Dolor 5: "25 skills cargadas a la vez = IA confundida"

El problema

Tienes 25 skills que cubren git, despliegue, revisión de código, Figma, Odoo, testing, seguridad. Cargarlas todas en cada prompt desperdicia la ventana de contexto y confunde al modelo. Intenta aplicar consejos de despliegue a una pregunta de revisión de código.

Cómo lo manejan otros

ChatGPT: Sin sistema de skills en absoluto
Cursor: Todas las reglas siempre cargadas
Manual: Comentar las reglas irrelevantes por tarea

Cómo lo resuelve Arc OS

Context Router — selección inteligente de skills por mensaje.

Usuario: "Review this code for XSS vulnerabilities"

El Context Router puntúa:
  code-review:          trigger "review" (2) + keyword "XSS" (1) = 3
  code-review-protocol: trigger "code review" (2)                 = 2
  system-audit:         sin coincidencia                          = 0
  git-manager:          sin coincidencia                          = 0

Inyecta en el prompt:
  SKILLS_HINT (céntrate en estas):
  - code-review: Auditoría de seguridad y revisión de calidad de código...
  - code-review-protocol: Revisión de código estructurada con OWASP...

Solo las 5 skills más relevantes son sugeridas. Claude sigue teniendo acceso a todas las skills, pero se enfoca en las correctas. Orientativo, no restrictivo — sin riesgo de romper nada.

Resultado: Respuestas enfocadas y relevantes. Sin contaminación de contexto por skills irrelevantes.

Resumen

Dolor	Solución de Arc OS	Mecanismo
La IA olvida las correcciones	Reglas de aprendizaje persistentes	Reflect Loop (`learnings.md`)
Contexto del stack tecnológico incorrecto	Child bots aislados	Arquitectura federada
Salida insegura	Validación declarativa	Motor de Binary Evals
Sin datos de rendimiento	Métricas por skill + análisis nocturno	Quality Tracker + Karpathy Loop
Dilución del contexto	Selección inteligente de skills	Context Router