xAI abre API de áudio Grok STT e TTS, taxa de erro geral de palavras do STT reduzida para 6,9%

robot
Geração do resumo em andamento
ME News Notícias, 18 de abril (UTC+8), de acordo com o monitoramento do Beating, a xAI lançou duas APIs de áudio independentes: Grok Speech to Text e Grok Text to Speech. Ambas vêm da mesma pilha de áudio que suporta Grok Voice, o sistema de bordo da Tesla e o atendimento ao cliente Starlink, agora disponibilizadas como endpoints independentes, permitindo que desenvolvedores integrem diretamente em aplicativos de proxy de voz, transcrição em tempo real, ferramentas de acessibilidade e podcasts. O STT oferece dois modos. A API REST é usada para transcrição em lote de arquivos de áudio grandes, com retorno em milissegundos; a API WebSocket é voltada para fluxo de voz em tempo real. Recursos adicionais incluem marcação de tempo por palavra, diarização de falantes, reconhecimento em múltiplos canais e Normalização de Texto Inversa, ou seja, transformar números, datas e moedas falados em textos estruturados padronizados. O suporte linguístico cobre mais de 25 idiomas, com troca fluida durante a conversa. A xAI também divulgou uma comparação de taxas de erro de palavra (WER, quanto menor melhor): cenário geral Grok 6,9%, ElevenLabs 9,0%, Deepgram 11,0%, AssemblyAI 12,9%; a diferença na "Reconhecimento de entidades em chamadas telefônicas" foi ainda maior, Grok 5,0%, enquanto as outras três são 12,0%, 13,5% e 21,3%. Em cenários comuns como reuniões, podcasts em vídeo e chamadas telefônicas, Grok também mantém uma leve vantagem. Esses números foram testados e divulgados pela própria xAI, sem validação de terceiros. Quanto aos preços, o processamento em lote de STT custa US$0,10 por hora, streaming US$0,20 por hora; TTS custa US$4,20 por milhão de caracteres. O TTS suporta controle de emoção e entonação usando tags de fala inline, como \[laugh\], \[sigh\], \[whisper\], \ (Fonte: BlockBeats)
XAI-1,85%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
SudoSatoshi
· 2h atrás
Cobertura multilíngue de mais de 25 idiomas, mas qual é a qualidade das línguas minoritárias?
A média do WER parece boa, mas para línguas de cauda longa, ainda pode ser um desastre.
Ver originalResponder0
AirdropUnderTheNeonBridge
· 2h atrás
Etiquetas internas de emoção e ritmo? TTS finalmente não é mais uma máquina de leitura, dá para criar audiolivros ou diálogos de NPCs de jogos com criatividade.
Ver originalResponder0
AirdropCartographer
· 2h atrás
Multicanal + separação de falantes, ferramenta para transcrição de gravações de reuniões, mas com um custo de streaming de 0,2 dólares por hora, mesmo em reuniões longas não é barato.
Ver originalResponder0
PerpPulse
· 2h atrás
Grok Voice, Tesla a bordo, Starlink suporte ao cliente usam a mesma pilha de áudio, Musk está ficando cada vez melhor nesse ciclo ecológico fechado.
Ver originalResponder0
MintLaterMaybe
· 2h atrás
O que é normalização de texto invertido? Converter números em dígitos arábicos? Essa função é bastante importante para o processamento pós-transcrição de voz, evitando que você precise escrever expressões regulares.
Ver originalResponder0
CliffsideAncientPineAndRolling
· 2h atrás
xAI esta rodada de API de áudio está sendo bastante agressiva, STT em streaming por 0,2 dólares por hora, TTS por 4,2 dólares por milhão de caracteres, a estratégia de precificação claramente voltada para uso comercial em grande escala.
Ver originalResponder0