Třešnička týdne: tři nové voice modely s GPT-5 reasoningem v audio loopu, cena o 60 % pod ElevenLabs. Skutečná zpráva je ale Symphony — open-source spec, který udělá z task boardu řídicí centrálu pro AI agenty. A 15 tisíc hvězd na GitHubu napovídá, že architektura, kterou my v katka.ai stavíme pro klienty, se právě stala mainstreamovým standardem.
Doteď voice agenti řetězili tři modely — speech-to-text, jazykový model, text-to-speech. Každý hop přidával latenci a ztrácel emoční nuanci. GPT-Realtime-2, který OpenAI vystřelil 7. května, to dělá v jednom modelu: audio dovnitř, reasoning uprostřed, audio ven. Kontextové okno čtyřnásobně narostlo na 128 tisíc tokenů. Model umí paralelně volat víc nástrojů, neumlčí se při interrupci a sám hlásí, když se zasekne.
Workshopy a zdroje: OpenAI Build Hour na GPT-Realtime-2 je 12. května v 19:00 SEČ. Praktickou produkční příručku má Forasoft (řeší echo cancellation, barge-in, kdy zvolit speech-to-speech vs. chained pipeline). Kompletní breakdown pak Build Fast with AI.
Když OpenAI v dubnu zveřejnil Symphony — open-source spec pro orchestraci kódovacích agentů — většina komentátorů ho zařadila do "developer news" rubriky. To je chyba.
Symphony není o kódu. Je o paradigmatu: "Lidská pozornost je bottleneck. Místo aby člověk obhospodařoval agenty, ať agenti obhospodařují tickety." Spec popisuje, jak udělat z Linearu (nebo GitHub Issues, nebo Jiry, nebo Trella) řídicí centrálu, ve které každý otevřený ticket dostane svého agenta, agent běží dokud nemá hotovo, a člověk dělá review až nakonec.
Proč by mě to mělo zajímat, když nestavím kód? Protože stejný mechanismus funguje pro jakýkoli digitální zaměstnance, ne jen pro kódování. Sekretariát dostává žádosti → tikety. Marketingový tým plánuje obsah → tikety. Customer support řeší dotazy → tikety. Tam, kde dnes lidé řídí AI po jedné konverzaci, Symphony ukazuje, jak řídit práci jako celek a AI jako vykonavatele.
Workshopy a zdroje: Nejlepší vysvětlení pro netechnické čtenáře má Tessl blog. Kritickou analýzu od InfoWorld stojí přečíst (Forrester označuje Symphony za "transformaci AI z asistenta na execution model"). Česká recenze v tuto chvíli neexistuje — díra na trhu.
Voice agent model s GPT-5 reasoningem v audio loopu. 128K kontext, parallel tool calls, preambles ("let me check that"), recovery behavior. Cena $32 / $64 za milion audio tokenů.
// Pro praxi: Architektonický zlom ve voice agentech. Stojí za seriózní A/B test pro každý projekt, který zvažuje voice komponentu.
Speech-to-speech translation pro 70 vstupních a 13 výstupních jazyků za 0,034 USD/min. Vimeo testuje pro lokalizaci, Deutsche Telekom pro multilingual support.
// Pro praxi: Cross-border B2B prodej z Česka do DACH regionu se stává realističtější. Hlasový support v 70 jazycích z jedné centrály.
Streaming speech-to-text za 0,017 USD/min. Transkripce po slovech, ne po větách — pro live titulky, meeting notes, healthcare dokumentaci.
// Pro praxi: Pro accessibility eventů a real-time titulky relevantní. Pro zápisy z meetingů pravděpodobně lepší než post-hoc Whisper.
Spec, který udělá z Linear/GitHub Issues control plane pro coding agenty. 500% nárůst landed PRs interně v OpenAI, 15K+ GitHub stars, fork pro Claude Code už existuje. Apache 2.0 licence.
// Pro praxi: Hotová architektura pro digitální zaměstnance. Viz horký tip výše.
OpenAI DevDay 2026 = 29. září, San Francisco. Soutěž o lístek probíhá na Twitteru.
// Pro praxi: Strategicky důležitý termín pro konkurenční přehled. Livestream keynote stojí za sledování.
OpenAI's nejintelligentnější model — silnější reasoning, lepší tool use, spolehlivější dlouhotrvající úkoly. GPT-5.5 Instant je teď default v ChatGPT.
// Pro praxi: Konkurenční benchmark vůči Claude. Pro klienty zvažující OpenAI vs. Anthropic stojí mít odpověď.
Codex teď umí pracovat přímo v Chromu — naviguje na sites, kde jste přihlášení, organizuje task tabs, vrací výsledky k review.
// Pro praxi: Konkurence pro Anthropic Claude in Chrome. Pokud klient potřebuje browser agenta, obě cesty existují.
Agents SDK nově umí inspect files, run commands, edit code, dlouhotrvající úkoly v sandboxech. Bring-your-own sandbox (Modal, E2B, Daytona, Cloudflare).
// Pro praxi: Konkurenční signál: další framework jde cestou struktury, sandboxingu a escalation rules. Konvergence trhu pokračuje.
Codex má 90+ pluginů a 48 definovaných use cases v knihovně. Background computer use, browser interaction, akcelerované workflowy.
// Pro praxi: Signál o směrování trhu: katalogizace use cases jako tržiště. Stejný směr jako Claude Code Plugin marketplace nebo Cursor Marketplace.
Praktický návod jak postavit code-migration agenta v kontrolovaném prostředí. "Agents doing real repo work, not chatting about code."
// Pro praxi: Validace teze, že enterprise-grade agenti potřebují kontrolované prostředí, ne otevřený chatbot.
OpenAI nasazuje MCP server, který umožňuje agentům prohledávat a číst oficiální dokumentaci z editoru nebo CLI. Funguje s Codex, Cursor, VS Code agent workflows.
// Pro praxi: Důležitý signál: OpenAI adoptuje MCP (původně Anthropic standard). Integrační vrstva mezi modely se stává platforma-neutrální.
Image generation pro production-quality vizuály. Showcase: Watchmaker Landing Page a Swifty Dungeon Game.
// Pro praxi: Pro brand vizuály a marketingové materiály alternativa k Midjourney/Flux. Pro persony s konzistentním vzhledem stále lépe HeyGen.
Návody jak promptovat — "definuj outcomes, ne steps" pro GPT-5.5. Validace teze, že prompt sophistication přímo koreluje s output quality.
// Pro praxi: Konvergence: OpenAI, Anthropic a všichni hlavní hráči teď oficiálně doporučují strukturované promptování s konkrétními cíli.
Production checklist pro Responses API — reasoning effort, tool_search, built-in tools, compaction, prompt caching, WebSocket mode pro 20–40 % zrychlení agentic runs.
// Pro praxi: Užitečný materiál pro klientskou debatu "co všechno se v produkci řeší". Kompetentní argument, ne marketing.
48 definovaných use cases pro Codex s hotovými prompty.
// Pro praxi: Stejný směr jako Anthropic Skills, Cursor Marketplace, Botpress ADK. Trh konverguje na "structured instruction files" architekturu.
Yi Zhang a William McDonald popisují, jak OpenAI předělalo WebRTC infrastrukturu — split relay a transceiver architektura pro low-latency voice AI.
// Pro praxi: Užitečné čtení před plánováním voice infrastruktury. Self-hosted vs. third-party API debata má teď víc kontextu.
Perplexity škáluje Realtime API na miliony voice sessions pro Comet a Perplexity Computer. Hard-won engineering lessons z voice-first deploymentu.
// Pro praxi: Konkrétní enterprise case study, kterou lze citovat klientům jako důkaz produkční vyspělosti technologie.
Brian Yu a Ashwin Nathan o tom, jak posunout speed gains z model inference do viditelného workflow.
// Pro praxi: Technický článek pro vývojáře. Pro netechnické čtenáře málo praktického.
Developer profil — open-sourcing AI prototypů, weaving AI do creative process. Klíčová věta: "The name of the game is speed."
// Pro praxi: Inspirace, ne návod. Pěkné video pro pondělní motivační dávku.
Brand storefront demo postavené přes GPT-5.5 + image generation. Z konceptu na branded product experience za hodiny.
// Pro praxi: Inspirace pro rychlé prototypování klientských brand vizualizací.
Native macOS hra postavená přes Codex, GPT-5.5 a generated visual assets.
// Pro praxi: Cool demo, mimo doménu digitálních zaměstnanců.