Meeting-Transkription + Analyse

Status: Live seit Phase 73 (2026-06-06). Laden Sie Audio-/Videoaufnahmen in den Chat-Composer hoch — Arc OS transkribiert, analysiert das Bildmaterial, fasst zusammen und bettet alles in die Projektsuche ein.


Überblick

Die Meeting-Transkriptions-Pipeline verwandelt eine Rohaufnahme in durchsuchbares, strukturiertes Wissen, ohne dass Sie Arc OS verlassen müssen:

Upload (Transcripts page or composer paperclip)
  → Groq whisper-large-v3         (~100× realtime, $0.111/audio-hour)
  → Claude vision on key frames   (video only — slide content, screen shares)
  → Claude Sonnet summary         (tldr, action items, decisions, topics)
  → Cohere RAG embed              (transcript searchable via arc kb search)
  → done                          (source file deleted from disk)

Kostenschätzung (BYOK-Anthropic-Key): ~$0.20–0.45 pro 30-Minuten-Meeting (Vision + Zusammenfassung) + ~$0.056 Groq-Transkription. Das Feature erfordert einen bezahlten Tarif (Starter / Starter Cloud / Beta).


Eine Aufnahme hochladen

  1. Öffnen Sie einen beliebigen Projekt-Workspace.
  2. Klicken Sie auf das Büroklammer-Symbol im Chat-Composer.
  3. Wählen Sie eine Audio- oder Videodatei. Unterstützte Formate:
    • Video: mp4, mov, webm, mkv, m4v
    • Audio: mp3, wav, m4a, aac, ogg, opus, flac
    • Max. Größe: 1 GB
  4. Ein Fortschritts-Chip erscheint im Composer und zeigt den aktuellen Schritt und den Prozentwert an.
  5. Sobald der Chip 100 % (Summary ready) erreicht, wird der Senden-Button freigeschaltet — Sie können sofort eine Nachricht senden, die auf das Transkript verweist.
  6. Nach einem kurzen zusätzlichen Schritt (RAG-Indexierung) wechselt der Status auf done und die Quelldatei wird gelöscht.

Während der Verarbeitung: Sie können im Composer andere Nachrichten tippen. Nur Medienanhänge, die noch verarbeitet werden, blockieren den Senden-Button.


Was in den Chat injiziert wird

Wenn Sie eine Nachricht mit einem fertig verarbeiteten Transkript-Anhang senden, wird der Transkript-Text automatisch an Ihre Nachricht angehängt:

Your message text here

--- TRANSCRIPT: meeting-2026-06-06.mp4 (video) ---
[whisper transcript text...]
--- END TRANSCRIPT ---

Der AI-Worker sieht das vollständige Transkript inline, wie jedes andere Dokument. Sie können Fragen dazu stellen, Zusammenfassungen anfordern oder den Worker Action Items extrahieren lassen.


Pipeline-Schritte im Detail

Schritt 1 — Audio-Extraktion (ffmpeg)

Bei Videodateien extrahiert Arc OS die Audiospur als 16-kHz-Mono-WAV. Bei Audiodateien ist dies lediglich eine Formatkonvertierung.

Schritt 2 — Transkription (Groq whisper-large-v3)

Die WAV-Datei wird an die Groq-API gesendet (Modell whisper-large-v3). Geschwindigkeit: ~100× Echtzeit (11-s-Clip → unter 1 s). Der Plattform-GROQ_API_KEY wird von einem Admin unter Platform Settings → Transcription konfiguriert. Mehrsprachig — Ukrainisch, Englisch und alle anderen wichtigen Sprachen werden out of the box unterstützt.

Schritt 3 — Frame-Extraktion bei Szenenwechseln (nur Video)

ffmpeg entnimmt Frames an Szenenwechsel-Punkten (Schwellenwert 0.4, Empfindlichkeit von 0 = jeder Frame bis 1 = nie). Zeitstempel werden in timestamps.json festgehalten, sodass Frame-Beschreibungen exakten Videopositionen zugeordnet werden können.

Maximale Frames pro Video: 50 (~$0.15 im schlechtesten Fall an Claude-Vision-Kosten).

Schritt 4 — Claude-Vision-Analyse (nur Video)

Jeder entnommene Frame wird mit einem Prompt an Claude Sonnet Vision gesendet, der sich konzentriert auf:

Reine Webcam-Frames oder Frames ohne informativen Inhalt werden mit "No informational content" markiert und tragen nichts zur Zusammenfassung bei.

Frame-Fehler sind nicht fatal — die Beschreibung wird zu [vision failed: <reason>] und die Pipeline läuft weiter.

Schritt 5 — Claude-Sonnet-Zusammenfassung

Das Transkript (und die Vision-Frame-Beschreibungen, sofern vorhanden) werden an Claude Sonnet gesendet. Die Zusammenfassung wird als strukturiertes JSON gespeichert:

{
  "tldr": "Team reviewed Q3 revenue forecast and decided to ship the new feature by end of month.",
  "key_points": [
    "Q3 revenue is 15% above projection",
    "Two blockers remain on the backend API"
  ],
  "action_items": [
    { "task": "Fix auth endpoint before Thursday", "owner": "Serhii" },
    { "task": "Update stakeholder deck", "owner": null }
  ],
  "decisions": [
    "Ship feature to production on June 30"
  ],
  "topics": ["Q3 revenue", "product launch", "API blockers"],
  "model": "claude-sonnet-4-5",
  "generated_at": "2026-06-06T10:42:00Z"
}

Schlägt die Zusammenfassung fehl, wird das Transkript auf den vorherigen Zustand zurückgesetzt, sodass der Rohtext erhalten bleibt. Nach der Korrektur Ihres Anthropic-Keys können Sie es erneut versuchen.

Schritt 6 — RAG-Embedding (Phase 73.6)

Der vollständige Text (Transkript + Frame-Beschreibungen + Zusammenfassung) wird in Chunks zerlegt und via Cohere embed-multilingual-v3.0 in den Vektor-Index des Projekts eingebettet. Nach diesem Schritt:

Um die RAG-Indexierung zu überspringen: übergeben Sie embed_to_rag=false im Upload-Formular (nur API; die UI bettet standardmäßig immer ein).


BYOK-API-Key-Einrichtung

Claude Vision und die Zusammenfassung nutzen Ihren Anthropic-API-Key:

  1. Gehen Sie zu Profile → API Keys → Anthropic Key.
  2. Fügen Sie Ihren Key ein. Er wird vor der Speicherung mit AES-256-GCM verschlüsselt.
  3. Ist kein persönlicher Key konfiguriert, wird der gemeinsame Plattform-Key verwendet (unterliegt den Rate-Limits der Plattform).

Die Groq-Transkription nutzt den Plattform-GROQ_API_KEY — für die Transkription ist kein persönlicher Key nötig.


Transkripte durchsuchen

Sobald ein Transkript den Status done erreicht, ist es per semantischer Suche auffindbar:

arc kb search "action items from last standup"
arc kb search "decision about Q3 launch"

Aus dem Chat-Composer heraus kann der AI-Worker über das Tool ask_notebooklm (das denselben RAG-Index abfragt) automatisch Fragen beantworten, die auf Ihren Transkripten basieren.

Mit dem Parameter doc_types können Sie die Suche auf Transkripte einschränken:

GET /api/crm/projects/:name/rag/search?q=...&doc_types=transcript

Kosten und Limits

Ressource Limit Hinweise
Upload-Größe 1 GB Pro Datei
Vision-Frames max. 50 Hartes Limit; überzählige Frames werden verworfen
Claude-Vision-Kosten ~$0.003/Frame Bei typischer 1024×768-JPEG-Auflösung
Claude-Zusammenfassungskosten ~$0.005–0.02 Abhängig von der Transkriptlänge (≤60 000 Zeichen gehen in die Zusammenfassung)
Groq-Transkription $0.111/Audio-Stunde Plattform-Key; ~$0.056 pro 30-Min.-Meeting
Monatslimit (Starter) 60 Min. Zurückgesetzt am 1. jedes Monats
Monatslimit (Starter Cloud) 300 Min. Zurückgesetzt am 1. jedes Monats
Monatslimit (Beta) 1 200 Min. Zurückgesetzt am 1. jedes Monats
Parallele Jobs 1 Jobs werden eingereiht; eine Transkription gleichzeitig pro Server

Troubleshooting

Symptom Wahrscheinliche Ursache Lösung
Chip hängt >2 Min. bei „Transcribing" Groq-API-Timeout oder lange Aufnahme GROQ_API_KEY in den Platform Settings prüfen; Jobs werden eingereiht
Vision-Schritt zeigt [vision failed: ...] Anthropic-Key fehlt oder ist rate-limitiert BYOK-Key unter Profile → API Keys setzen
Zusammenfassung fehlgeschlagen, Status zurückgerollt Claude-API-Fehler Key korrigieren; die Pipeline akzeptiert einen neuen Upload
RAG-Embedding fehlgeschlagen (nicht fatal) Cohere-Key-Problem Transkript weiterhin nutzbar; arc kb search findet es erst nach Re-Embedding
Senden-Button bleibt nach „Summary ready" blockiert Veralteter Browser-Cache Seite aktualisieren
„No informational content" bei allen Frames Reine Webcam-Aufnahme (keine Bildschirmfreigabe) Erwartet; Vision überspringt reine Webcam-Frames

Referenzen