Meeting-Transkription + Analyse
Status: Live seit Phase 73 (2026-06-06). Laden Sie Audio-/Videoaufnahmen in den Chat-Composer hoch — Arc OS transkribiert, analysiert das Bildmaterial, fasst zusammen und bettet alles in die Projektsuche ein.
Überblick
Die Meeting-Transkriptions-Pipeline verwandelt eine Rohaufnahme in durchsuchbares, strukturiertes Wissen, ohne dass Sie Arc OS verlassen müssen:
Upload (Transcripts page or composer paperclip)
→ Groq whisper-large-v3 (~100× realtime, $0.111/audio-hour)
→ Claude vision on key frames (video only — slide content, screen shares)
→ Claude Sonnet summary (tldr, action items, decisions, topics)
→ Cohere RAG embed (transcript searchable via arc kb search)
→ done (source file deleted from disk)
Kostenschätzung (BYOK-Anthropic-Key): ~$0.20–0.45 pro 30-Minuten-Meeting (Vision + Zusammenfassung) + ~$0.056 Groq-Transkription. Das Feature erfordert einen bezahlten Tarif (Starter / Starter Cloud / Beta).
Eine Aufnahme hochladen
- Öffnen Sie einen beliebigen Projekt-Workspace.
- Klicken Sie auf das Büroklammer-Symbol im Chat-Composer.
- Wählen Sie eine Audio- oder Videodatei. Unterstützte Formate:
- Video: mp4, mov, webm, mkv, m4v
- Audio: mp3, wav, m4a, aac, ogg, opus, flac
- Max. Größe: 1 GB
- Ein Fortschritts-Chip erscheint im Composer und zeigt den aktuellen Schritt und den Prozentwert an.
- Sobald der Chip 100 % (Summary ready) erreicht, wird der Senden-Button freigeschaltet — Sie können sofort eine Nachricht senden, die auf das Transkript verweist.
- Nach einem kurzen zusätzlichen Schritt (RAG-Indexierung) wechselt der Status auf done und die Quelldatei wird gelöscht.
Während der Verarbeitung: Sie können im Composer andere Nachrichten tippen. Nur Medienanhänge, die noch verarbeitet werden, blockieren den Senden-Button.
Was in den Chat injiziert wird
Wenn Sie eine Nachricht mit einem fertig verarbeiteten Transkript-Anhang senden, wird der Transkript-Text automatisch an Ihre Nachricht angehängt:
Your message text here
--- TRANSCRIPT: meeting-2026-06-06.mp4 (video) ---
[whisper transcript text...]
--- END TRANSCRIPT ---
Der AI-Worker sieht das vollständige Transkript inline, wie jedes andere Dokument. Sie können Fragen dazu stellen, Zusammenfassungen anfordern oder den Worker Action Items extrahieren lassen.
Pipeline-Schritte im Detail
Schritt 1 — Audio-Extraktion (ffmpeg)
Bei Videodateien extrahiert Arc OS die Audiospur als 16-kHz-Mono-WAV. Bei Audiodateien ist dies lediglich eine Formatkonvertierung.
Schritt 2 — Transkription (Groq whisper-large-v3)
Die WAV-Datei wird an die Groq-API gesendet (Modell whisper-large-v3). Geschwindigkeit: ~100× Echtzeit (11-s-Clip → unter 1 s). Der Plattform-GROQ_API_KEY wird von einem Admin unter Platform Settings → Transcription konfiguriert. Mehrsprachig — Ukrainisch, Englisch und alle anderen wichtigen Sprachen werden out of the box unterstützt.
Schritt 3 — Frame-Extraktion bei Szenenwechseln (nur Video)
ffmpeg entnimmt Frames an Szenenwechsel-Punkten (Schwellenwert 0.4, Empfindlichkeit von 0 = jeder Frame bis 1 = nie). Zeitstempel werden in timestamps.json festgehalten, sodass Frame-Beschreibungen exakten Videopositionen zugeordnet werden können.
Maximale Frames pro Video: 50 (~$0.15 im schlechtesten Fall an Claude-Vision-Kosten).
Schritt 4 — Claude-Vision-Analyse (nur Video)
Jeder entnommene Frame wird mit einem Prompt an Claude Sonnet Vision gesendet, der sich konzentriert auf:
- Folien und Präsentationsinhalte (Titel, Kernpunkte, Diagramme)
- Bildschirmfreigaben (Apps, Code, Dashboards, sichtbare URLs)
- Diagramme (Kästen, Pfeile, Beschriftungen)
- Sichtbaren Text (UI-Labels, Überschriften, wichtige Zahlen)
Reine Webcam-Frames oder Frames ohne informativen Inhalt werden mit "No informational content" markiert und tragen nichts zur Zusammenfassung bei.
Frame-Fehler sind nicht fatal — die Beschreibung wird zu [vision failed: <reason>] und die Pipeline läuft weiter.
Schritt 5 — Claude-Sonnet-Zusammenfassung
Das Transkript (und die Vision-Frame-Beschreibungen, sofern vorhanden) werden an Claude Sonnet gesendet. Die Zusammenfassung wird als strukturiertes JSON gespeichert:
{
"tldr": "Team reviewed Q3 revenue forecast and decided to ship the new feature by end of month.",
"key_points": [
"Q3 revenue is 15% above projection",
"Two blockers remain on the backend API"
],
"action_items": [
{ "task": "Fix auth endpoint before Thursday", "owner": "Serhii" },
{ "task": "Update stakeholder deck", "owner": null }
],
"decisions": [
"Ship feature to production on June 30"
],
"topics": ["Q3 revenue", "product launch", "API blockers"],
"model": "claude-sonnet-4-5",
"generated_at": "2026-06-06T10:42:00Z"
}
Schlägt die Zusammenfassung fehl, wird das Transkript auf den vorherigen Zustand zurückgesetzt, sodass der Rohtext erhalten bleibt. Nach der Korrektur Ihres Anthropic-Keys können Sie es erneut versuchen.
Schritt 6 — RAG-Embedding (Phase 73.6)
Der vollständige Text (Transkript + Frame-Beschreibungen + Zusammenfassung) wird in Chunks zerlegt und via Cohere embed-multilingual-v3.0 in den Vektor-Index des Projekts eingebettet. Nach diesem Schritt:
- Die Aufnahme ist über
arc kb searchund das Wissens-Tool im Chat durchsuchbar - Die Quelldatei wird von der Festplatte gelöscht (CEO-Entscheidung D4 — die Transkript-Tabelle ist die Source of Truth)
- Der Status wechselt zu
done
Um die RAG-Indexierung zu überspringen: übergeben Sie embed_to_rag=false im Upload-Formular (nur API; die UI bettet standardmäßig immer ein).
BYOK-API-Key-Einrichtung
Claude Vision und die Zusammenfassung nutzen Ihren Anthropic-API-Key:
- Gehen Sie zu Profile → API Keys → Anthropic Key.
- Fügen Sie Ihren Key ein. Er wird vor der Speicherung mit AES-256-GCM verschlüsselt.
- Ist kein persönlicher Key konfiguriert, wird der gemeinsame Plattform-Key verwendet (unterliegt den Rate-Limits der Plattform).
Die Groq-Transkription nutzt den Plattform-GROQ_API_KEY — für die Transkription ist kein persönlicher Key nötig.
Transkripte durchsuchen
Sobald ein Transkript den Status done erreicht, ist es per semantischer Suche auffindbar:
arc kb search "action items from last standup"
arc kb search "decision about Q3 launch"
Aus dem Chat-Composer heraus kann der AI-Worker über das Tool ask_notebooklm (das denselben RAG-Index abfragt) automatisch Fragen beantworten, die auf Ihren Transkripten basieren.
Mit dem Parameter doc_types können Sie die Suche auf Transkripte einschränken:
GET /api/crm/projects/:name/rag/search?q=...&doc_types=transcript
Kosten und Limits
| Ressource | Limit | Hinweise |
|---|---|---|
| Upload-Größe | 1 GB | Pro Datei |
| Vision-Frames | max. 50 | Hartes Limit; überzählige Frames werden verworfen |
| Claude-Vision-Kosten | ~$0.003/Frame | Bei typischer 1024×768-JPEG-Auflösung |
| Claude-Zusammenfassungskosten | ~$0.005–0.02 | Abhängig von der Transkriptlänge (≤60 000 Zeichen gehen in die Zusammenfassung) |
| Groq-Transkription | $0.111/Audio-Stunde | Plattform-Key; ~$0.056 pro 30-Min.-Meeting |
| Monatslimit (Starter) | 60 Min. | Zurückgesetzt am 1. jedes Monats |
| Monatslimit (Starter Cloud) | 300 Min. | Zurückgesetzt am 1. jedes Monats |
| Monatslimit (Beta) | 1 200 Min. | Zurückgesetzt am 1. jedes Monats |
| Parallele Jobs | 1 | Jobs werden eingereiht; eine Transkription gleichzeitig pro Server |
Troubleshooting
| Symptom | Wahrscheinliche Ursache | Lösung |
|---|---|---|
| Chip hängt >2 Min. bei „Transcribing" | Groq-API-Timeout oder lange Aufnahme | GROQ_API_KEY in den Platform Settings prüfen; Jobs werden eingereiht |
Vision-Schritt zeigt [vision failed: ...] |
Anthropic-Key fehlt oder ist rate-limitiert | BYOK-Key unter Profile → API Keys setzen |
| Zusammenfassung fehlgeschlagen, Status zurückgerollt | Claude-API-Fehler | Key korrigieren; die Pipeline akzeptiert einen neuen Upload |
| RAG-Embedding fehlgeschlagen (nicht fatal) | Cohere-Key-Problem | Transkript weiterhin nutzbar; arc kb search findet es erst nach Re-Embedding |
| Senden-Button bleibt nach „Summary ready" blockiert | Veralteter Browser-Cache | Seite aktualisieren |
| „No informational content" bei allen Frames | Reine Webcam-Aufnahme (keine Bildschirmfreigabe) | Erwartet; Vision überspringt reine Webcam-Frames |
Referenzen
master-bot/transcript-worker.ts— Pipeline-Orchestrator (Phase 73.2 + 73.4 + 73.5 + 73.6)master-bot/transcript-vision.ts— Claude Vision pro Frame (Phase 73.4, #380)master-bot/transcript-summary.ts— Claude-Sonnet-Zusammenfassung (Phase 73.5, #381)shared/migrations/052_transcripts.ts— Transkript-Tabelleshared/migrations/053_transcript_jobs.ts— Job-Fortschritts-Trackerfrontend/src/crm/pages/workspace/Composer.jsx— Upload-Chip + SSE-Fortschritt- API-Referenz: Phase-73-Endpunkte
- Architektur: RAG — transcript doc_type