Модели и агенты

Gradium выпустил real-time модели перевода речи: обходят GPT и Gemini по точности и задержке

24.06.2026 · marktechpost.com ↗

Gradium запустил две модели real-time перевода речи: stt-translate (речь → текст) и s2s-translate (речь → речь). Обе работают на пяти языках (EN, FR, DE, ES, PT) и 20 парах, стримят результат прямо в браузере. Вместо обычного каскада из трёх моделей используется два этапа — транскрипция и перевод объединены в один проход на основе фреймворка Hibiki-Zero с обучением через Reinforcement Learning.

Точность оценивали по BLEU и MetricX на собственном наборе разговорной речи. stt-translate обходит gemini-3.5-live-translate по обоим метрикам, а gpt-realtime-translate — по BLEU (сравним по MetricX). Средняя задержка — 3.0 с, у gpt-realtime-translate — 3.6 с, у gemini-3.5-live-translate — 2.9 с. При этом Gradium даёт выбор голоса на выходе и клонирование своего голоса — чего нет у gpt-realtime-translate.

s2s-translate получает аудио через WebSocket и возвращает синтезированную речь и перевод. Вход — PCM 24 кГц, выход — 48 кГц. Поддерживаются WAV, Opus, mu-law, A-law. Дуплексный канал упрощает интеграцию — не нужно склеивать STT и TTS вручную.

Источник: marktechpost.com

Темы: Модели и агенты Gradium Openai Google