Open AI lança inteligência artificial que transforma áudio em texto

Open AI lança API de tecnologia que transforma áudio em texto, mas cada minuto de uso custa US$ 0,006

1 mar 2023 - 20h04
(atualizado em 2/3/2023 às 13h38)
Foto: Pexels/dlxmedia.hu / Canaltech

A OpenAI apresentou nesta quarta-feira (1°) a API Whisper, uma versão hospedada do modelo de inteligência artificial que transcreve falas em tempo real. Desenvolvedores podem implementar o ferramentas com a IA pagando US$ 0,006 por minuto de uso.

A API Whisper teve código aberto para o público em setembro de 2022, suporta os de formatos de arquivos, como M4A, MP3, MP4, MPEG, WAV e WEBM, e é compatível com uma variedade de idiomas, sendo capaz de traduzir o texto obtido para inglês.

Publicidade

Em funcionalidade, o Whisper é como a ferramenta de transcrição automática do Google Meet. A IA consegue interpretar o conteúdo falado num áudio ou vídeo e colocá-lo em texto, como em legendas automáticas. A diferença dele, porém, seria o preparo: foram mais de 680 mil horas de áudio multilingual e "multitarefa" para refinar o modelo, segundo o presidente da OpenAI Greg Brockman.

Ao disponibilizar uma API do Whisper, a OpenAI espera abrir portas para companhias explorarem a companhia por conta própria e criem ferramentas inovadoras com os poderes da transcrição de texto. O modelo é menos impressionante do que o chatbot ChatGPT, mas pode ser uma engrenagem importante de recursos de acessibilidade e comunicação empresarial.

IA de transcrição é limitada

O sistema do Whisper é treinado com milhões de minutos de conteúdo barulhento e indefinido e, por isso, pode apresentar resultados errados. De acordo com a OpenAI, o modelo tem a tendência de mostrar palavras erradas que ainda não foram ditas, na tentativa de "prever" o que vai ser falado pelo locutor.

Além disso, o Whisper não é perfeito em outros idiomas e pode apresentar problemas em línguas em que foi menos treinado. A OpenAI não especificou em quais dialetos isso deve acontecer com mais frequência.

Publicidade

"Lançamos um modelo, mas isso não foi suficiente para fazer com que todo o ecossistema de desenvolvedores se desenvolvesse em torno dele", disse o presidente da OpenAI ao TechCrunch. "A API Whisper é o mesmo modelo grande que você pode obter de código aberto, mas otimizamos ao extremo", acrescentou.

Trending no Canaltech:

Curtiu? Fique por dentro das principais notícias através do nosso ZAP
Inscreva-se