OpenAI: voice agenti s GPT-5 reasoningem a Symphony

// Co si z toho odnášíme

Dva tipy. Jeden pro AI svět, jeden pro vás.

🌍 Pro AI svět

Voice agenti dostali GPT-5 reasoning přímo do audio loopu

Doteď voice agenti řetězili tři modely — speech-to-text, jazykový model, text-to-speech. Každý hop přidával latenci a ztrácel emoční nuanci. GPT-Realtime-2, který OpenAI vystřelil 7. května, to dělá v jednom modelu: audio dovnitř, reasoning uprostřed, audio ven. Kontextové okno čtyřnásobně narostlo na 128 tisíc tokenů. Model umí paralelně volat víc nástrojů, neumlčí se při interrupci a sám hlásí, když se zasekne.

95 %

call success rate u Zillow (vs. 69 % předtím)

70+

jazyků v live translation

$0,034

/min za živý překlad — 60 % pod ElevenLabs

128K

tokenů kontextu (4× víc)

// Kdo to nasazuje v produkci:

Zillow — voice agent pro realitní vyhledávání, 26bodový skok v úspěšnosti hovorů
Deutsche Telekom — multilingual customer support napříč EU
Priceline — voice asistent pro cestovní rezervace
Vimeo — živá lokalizace video obsahu
BolnaAI — 12,5 % nižší chybovost pro indické jazyky

Workshopy a zdroje: OpenAI Build Hour na GPT-Realtime-2 je 12. května v 19:00 SEČ. Praktickou produkční příručku má Forasoft (řeší echo cancellation, barge-in, kdy zvolit speech-to-speech vs. chained pipeline). Kompletní breakdown pak Build Fast with AI.

→ Konkrétní první krok

Zaregistrujte se na dnešní Build Hour a v OpenAI Playgroundu otestujte 10minutový voice spike ve vašem jazyce. Změřte latenci a přesnost tool callů. Tím získáte tvrdá data pro rozhodnutí — vedle ElevenLabs, nebo místo něj.

🎯 Pro vás, kdo stavíte (nebo kupujete) AI agenty

Symphony: ticket-based orchestrace, která mění úvahu o digitálních zaměstnancích

Když OpenAI v dubnu zveřejnil Symphony — open-source spec pro orchestraci kódovacích agentů — většina komentátorů ho zařadila do "developer news" rubriky. To je chyba.

Symphony není o kódu. Je o paradigmatu: "Lidská pozornost je bottleneck. Místo aby člověk obhospodařoval agenty, ať agenti obhospodařují tickety." Spec popisuje, jak udělat z Linearu (nebo GitHub Issues, nebo Jiry, nebo Trella) řídicí centrálu, ve které každý otevřený ticket dostane svého agenta, agent běží dokud nemá hotovo, a člověk dělá review až nakonec.

500 %

nárůst landed pull requestů interně v OpenAI

15K+

GitHub stars za první týdny

forky pro Claude Code (Anthropic) už existují

Proč by mě to mělo zajímat, když nestavím kód? Protože stejný mechanismus funguje pro jakýkoli digitální zaměstnance, ne jen pro kódování. Sekretariát dostává žádosti → tikety. Marketingový tým plánuje obsah → tikety. Customer support řeší dotazy → tikety. Tam, kde dnes lidé řídí AI po jedné konverzaci, Symphony ukazuje, jak řídit práci jako celek a AI jako vykonavatele.

// Kdo už staví na Symphony s Claude Code (ne s Codex):

ClaudeCodePSymphony — fork pro Claude Code + GitHub Issues, TypeScript
symphony-claude (sapsaldog) — fork s blog postem o portu z Codex na Claude Code
cc-symphony — Rust implementace, postavil sám Claude Code
Dan McAteer (AnswerRocket) — closenul desítky issues za týden pomocí Symphony v produkci

Workshopy a zdroje: Nejlepší vysvětlení pro netechnické čtenáře má Tessl blog. Kritickou analýzu od InfoWorld stojí přečíst (Forrester označuje Symphony za "transformaci AI z asistenta na execution model"). Česká recenze v tuto chvíli neexistuje — díra na trhu.

→ Konkrétní první krok

Vezměte jeden opakující se proces ve vaší firmě, který dnes lidé řeší v hlavě (typicky: dotazy z formuláře, žádosti z mailu, content kalendář). Zkuste ho jeden týden držet v Trellu nebo GitHub Issues s jasným WORKFLOW dokumentem. To je pre-Symphony fáze: bez agenta, jen s ticket disciplínou. Když to funguje s lidmi, funguje to s agenty. Když to nefunguje, problém není v AI, ale v procesu.

// Co všechno se v newsletteru objevilo

Kompletní přehled — od kritického k inspirativnímu

GPT-Realtime-2

Model / API Vysoká relevance

Voice agent model s GPT-5 reasoningem v audio loopu. 128K kontext, parallel tool calls, preambles ("let me check that"), recovery behavior. Cena $32 / $64 za milion audio tokenů.

// Pro praxi: Architektonický zlom ve voice agentech. Stojí za seriózní A/B test pro každý projekt, který zvažuje voice komponentu.

GPT-Realtime-Translate

Model / API Střední relevance

Speech-to-speech translation pro 70 vstupních a 13 výstupních jazyků za 0,034 USD/min. Vimeo testuje pro lokalizaci, Deutsche Telekom pro multilingual support.

// Pro praxi: Cross-border B2B prodej z Česka do DACH regionu se stává realističtější. Hlasový support v 70 jazycích z jedné centrály.

GPT-Realtime-Whisper

Model / API Střední relevance

Streaming speech-to-text za 0,017 USD/min. Transkripce po slovech, ne po větách — pro live titulky, meeting notes, healthcare dokumentaci.

// Pro praxi: Pro accessibility eventů a real-time titulky relevantní. Pro zápisy z meetingů pravděpodobně lepší než post-hoc Whisper.

Symphony — open-source spec pro orchestraci agentů

Open source / paradigma Vysoká relevance

Spec, který udělá z Linear/GitHub Issues control plane pro coding agenty. 500% nárůst landed PRs interně v OpenAI, 15K+ GitHub stars, fork pro Claude Code už existuje. Apache 2.0 licence.

// Pro praxi: Hotová architektura pro digitální zaměstnance. Viz horký tip výše.

DevDay 2026

Event Střední relevance

OpenAI DevDay 2026 = 29. září, San Francisco. Soutěž o lístek probíhá na Twitteru.

// Pro praxi: Strategicky důležitý termín pro konkurenční přehled. Livestream keynote stojí za sledování.

GPT-5.5

Model Nízká relevance

OpenAI's nejintelligentnější model — silnější reasoning, lepší tool use, spolehlivější dlouhotrvající úkoly. GPT-5.5 Instant je teď default v ChatGPT.

// Pro praxi: Konkurenční benchmark vůči Claude. Pro klienty zvažující OpenAI vs. Anthropic stojí mít odpověď.

Codex Chrome extension

Nástroj Střední relevance

Codex teď umí pracovat přímo v Chromu — naviguje na sites, kde jste přihlášení, organizuje task tabs, vrací výsledky k review.

// Pro praxi: Konkurence pro Anthropic Claude in Chrome. Pokud klient potřebuje browser agenta, obě cesty existují.

Agents SDK update

Framework Střední relevance

Agents SDK nově umí inspect files, run commands, edit code, dlouhotrvající úkoly v sandboxech. Bring-your-own sandbox (Modal, E2B, Daytona, Cloudflare).

// Pro praxi: Konkurenční signál: další framework jde cestou struktury, sandboxingu a escalation rules. Konvergence trhu pokračuje.

Codex pro (skoro) cokoli — 90+ pluginů

Nástroj Střední relevance

Codex má 90+ pluginů a 48 definovaných use cases v knihovně. Background computer use, browser interaction, akcelerované workflowy.

// Pro praxi: Signál o směrování trhu: katalogizace use cases jako tržiště. Stejný směr jako Claude Code Plugin marketplace nebo Cursor Marketplace.

Sandbox agents cookbook (code migration)

Tutoriál Střední relevance

Praktický návod jak postavit code-migration agenta v kontrolovaném prostředí. "Agents doing real repo work, not chatting about code."

// Pro praxi: Validace teze, že enterprise-grade agenti potřebují kontrolované prostředí, ne otevřený chatbot.

OpenAI Docs MCP server

Nástroj / koncept Střední relevance

OpenAI nasazuje MCP server, který umožňuje agentům prohledávat a číst oficiální dokumentaci z editoru nebo CLI. Funguje s Codex, Cursor, VS Code agent workflows.

// Pro praxi: Důležitý signál: OpenAI adoptuje MCP (původně Anthropic standard). Integrační vrstva mezi modely se stává platforma-neutrální.

GPT-Image-2

Model Nízká relevance

Image generation pro production-quality vizuály. Showcase: Watchmaker Landing Page a Swifty Dungeon Game.

// Pro praxi: Pro brand vizuály a marketingové materiály alternativa k Midjourney/Flux. Pro persony s konzistentním vzhledem stále lépe HeyGen.

Prompting guide pro GPT-5.5 a Codex

Dokumentace Nízká relevance

Návody jak promptovat — "definuj outcomes, ne steps" pro GPT-5.5. Validace teze, že prompt sophistication přímo koreluje s output quality.

// Pro praxi: Konvergence: OpenAI, Anthropic a všichni hlavní hráči teď oficiálně doporučují strukturované promptování s konkrétními cíli.

API deployment checklist + WebSocket mode

Dokumentace Nízká relevance

Production checklist pro Responses API — reasoning effort, tool_search, built-in tools, compaction, prompt caching, WebSocket mode pro 20–40 % zrychlení agentic runs.

// Pro praxi: Užitečný materiál pro klientskou debatu "co všechno se v produkci řeší". Kompetentní argument, ne marketing.

Codex use cases library

Knihovna Nízká relevance

48 definovaných use cases pro Codex s hotovými prompty.

// Pro praxi: Stejný směr jako Anthropic Skills, Cursor Marketplace, Botpress ADK. Trh konverguje na "structured instruction files" architekturu.

Low-latency voice AI at scale (blog)

Článek Střední relevance

Yi Zhang a William McDonald popisují, jak OpenAI předělalo WebRTC infrastrukturu — split relay a transceiver architektura pro low-latency voice AI.

// Pro praxi: Užitečné čtení před plánováním voice infrastruktury. Self-hosted vs. third-party API debata má teď víc kontextu.

Perplexity case study (Realtime API)

Case study Střední relevance

Perplexity škáluje Realtime API na miliony voice sessions pro Comet a Perplexity Computer. Hard-won engineering lessons z voice-first deploymentu.

// Pro praxi: Konkrétní enterprise case study, kterou lze citovat klientům jako důkaz produkční vyspělosti technologie.

Speeding up agentic workflows with WebSockets (blog)

Článek Nízká relevance

Brian Yu a Ashwin Nathan o tom, jak posunout speed gains z model inference do viditelného workflow.

// Pro praxi: Technický článek pro vývojáře. Pro netechnické čtenáře málo praktického.

Ashe Magelhaes — developer spotlight

Profil / video Nízká relevance

Developer profil — open-sourcing AI prototypů, weaving AI do creative process. Klíčová věta: "The name of the game is speed."

// Pro praxi: Inspirace, ne návod. Pěkné video pro pondělní motivační dávku.

Watchmaker Landing Page (showcase)

Demo Nízká relevance

Brand storefront demo postavené přes GPT-5.5 + image generation. Z konceptu na branded product experience za hodiny.

// Pro praxi: Inspirace pro rychlé prototypování klientských brand vizualizací.

Swifty Dungeon Game (showcase)

Demo Nízká relevance

Native macOS hra postavená přes Codex, GPT-5.5 a generated visual assets.

// Pro praxi: Cool demo, mimo doménu digitálních zaměstnanců.