Как я сделал голос в детском приложении дешёвым, офлайн и мгновенным: ElevenLabs + предзапись
Разработчик-одиночка создаёт приложение, где дети рисуют слова, а нейросеть распознаёт рисунок и отвечает голосом. В MVP использовался системный голос — бесплатный, но звучащий как робот из нулевых. Чтобы получить нормальную озвучку, пользователю нужно было зайти в настройки и докачать её — модалка с инструкцией не помогла, никто этого не делал.
Решение: весь текст, который приложение может произнести, известен заранее. Автор записал все возможные фразы через ElevenLabs один раз, сохранил их локально и теперь проигрывает офлайн. Это дало мгновенный отклик, нулевую стоимость API в продакшене и отсутствие задержек — пользователь получает качественный голос без единого действия.
Ключевой инсайт: для приложений с фиксированным набором реплик предзапись и кэширование аудио — простой и эффективный способ обойти дороговизну TTS в реальном времени. Автор также делится опытом, как в соло-разработке с AI-агентом пайплайны проверок заменяют отсутствующую команду.