A OpenAI apresentou nesta quarta-feira (1°) a API Whisper, uma versão hospedada do modelo de inteligência artificial que transcreve falas em tempo real. Desenvolvedores podem implementar o ferramentas com a IA pagando US$ 0,006 por minuto de uso.
A API Whisper teve código aberto para o público em setembro de 2022, suporta os de formatos de arquivos, como M4A, MP3, MP4, MPEG, WAV e WEBM, e é compatível com uma variedade de idiomas, sendo capaz de traduzir o texto obtido para inglês.
Em funcionalidade, o Whisper é como a ferramenta de transcrição automática do Google Meet. A IA consegue interpretar o conteúdo falado num áudio ou vídeo e colocá-lo em texto, como em legendas automáticas. A diferença dele, porém, seria o preparo: foram mais de 680 mil horas de áudio multilingual e "multitarefa" para refinar o modelo, segundo o presidente da OpenAI Greg Brockman.
- Chat Money | Golpe promete dinheiro para quem usar o ChatGPT
- Currículo gerado por IA aumenta a chance de contratação, aponta estudo
Ao disponibilizar uma API do Whisper, a OpenAI espera abrir portas para companhias explorarem a companhia por conta própria e criem ferramentas inovadoras com os poderes da transcrição de texto. O modelo é menos impressionante do que o chatbot ChatGPT, mas pode ser uma engrenagem importante de recursos de acessibilidade e comunicação empresarial.
IA de transcrição é limitada
O sistema do Whisper é treinado com milhões de minutos de conteúdo barulhento e indefinido e, por isso, pode apresentar resultados errados. De acordo com a OpenAI, o modelo tem a tendência de mostrar palavras erradas que ainda não foram ditas, na tentativa de "prever" o que vai ser falado pelo locutor.
Além disso, o Whisper não é perfeito em outros idiomas e pode apresentar problemas em línguas em que foi menos treinado. A OpenAI não especificou em quais dialetos isso deve acontecer com mais frequência.
"Lançamos um modelo, mas isso não foi suficiente para fazer com que todo o ecossistema de desenvolvedores se desenvolvesse em torno dele", disse o presidente da OpenAI ao TechCrunch. "A API Whisper é o mesmo modelo grande que você pode obter de código aberto, mas otimizamos ao extremo", acrescentou.
Trending no Canaltech:
- Estudo indica tempo diário mínimo de atividade física para manter a saúde
- OMS alerta para o risco de disseminação do vírus Marburg
- Doença de Alzheimer está relacionada com frutose no cérebro
- Céu de março | Vênus e Júpiter em conjunção brilham muito neste mês
- Apple | O que significa o "i" em "iPhone", "iPad" e "iMac"?
- As 10 séries mais assistidas da semana (26/02/2023)