ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, на платформе xAI запущены два независимых API для аудио: Grok Speech to Text и Grok Text to Speech. Оба основаны на одной аудиосистеме, поддерживающей Grok Voice, автомобильную систему Tesla и службу поддержки Starlink, и теперь доступны в виде отдельных конечных точек, что позволяет разработчикам напрямую интегрировать голосовые агенты, в реальном времени транскрибировать, создавать инструменты для инвалидов и подкасты. STT предлагает два режима. REST API предназначен для пакетной обработки больших аудиофайлов с ответом за миллисекунды; WebSocket API ориентирован на потоковую передачу в реальном времени. Включённые возможности включают временные метки на уровне слов, диаризацию говорящих, распознавание по каналам и обратную нормализацию текста, то есть автоматическую обработку чисел, дат, валют, произнесённых в разговорной речи, в стандартизированный структурированный текст. Поддержка более 25 языков, с возможностью бесшовного переключения в диалоге. xAI также опубликовала сравнительный показатель ошибок распознавания слов (WER, чем ниже, тем лучше): в целом по сценарию Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; разрыв в распознавании сущностей телефонных звонков ещё больше: Grok 5.0%, у трёх других соответственно 12.0%, 13.5%, 21.3%. В сценариях встреч, видеоподкастов и телефонных звонков Grok немного опережает конкурентов. Эти показатели были протестированы и опубликованы xAI, сторонняя проверка пока отсутствует. В ценовой политике, пакетная обработка STT стоит 0,10 доллара за час, потоковая — 0,20 доллара за час; TTS — 4,20 доллара за миллион символов. TTS поддерживает управление эмоциями и ритмом с помощью встроенных тегов речи, например \[laugh\], \[sigh\], \[whisper\], \ (Источник: BlockBeats)

XAI3,14%

GROK-8,22%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

6 Лайков

Награда
6
4
Репост
Поделиться

комментарий

Добавить комментарий

CandlewickKid

· 2ч назад

xAI наконец-то выделила голосовой стек, разработчики в восторге

Посмотреть ОригиналОтветить0

RetroRadioSignal

· 2ч назад

Grok's STT реализовал двойной режим REST + WebSocket, учитывая как пакетную, так и реальную обработку, довольно продумано

Посмотреть ОригиналОтветить0

PatinaTradingBell

· 3ч назад

Аудио-стек, используемый как Tesla, так и Starlink, должен был пройти проверку надежности

Посмотреть ОригиналОтветить0

OracleBabysitter

· 3ч назад

Инструменты для доступности +1, именно такова должна быть теплоту технологий

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.22M Популярность
#
USStrikesIran
9.32M Популярность
#
IsraelStrikesIranBTCPlunges
49.53K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.81M Популярность
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Популярность

Закреплено

Карта сайта

xAI открывает API для аудио Grok STT и TTS, общий уровень ошибок в распознавании речи (STT) снижен до 6,9%

Популярные темы

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Закреплено