A Mozilla lançou a versão 19.0 do seu conjunto de dados Common Voice, ampliando seu acervo de amostras de voz com a contribuição de mais de 200 mil pessoas ao redor do mundo. O projeto visa coletar gravações de vozes diversas para construir modelos de reconhecimento e síntese de fala, disponibilizando os dados em domínio público (CC0), o que permite seu uso livre em projetos de aprendizado de máquina e pesquisas.
Avanços em relação à versão anterior
Comparado com a versão anterior, o volume total de material de fala aumentou de 31,8 mil para 32,6 mil horas, das quais mais de 20 mil horas passaram pelo rigoroso procedimento de verificação. Além disso, o número de idiomas suportados subiu de 129 para 131, com novos acréscimos que reforçam a diversidade de pronúncias.
Destaques por idioma
No idioma inglês, 93,9 mil pessoas contribuíram para a nova versão, somando 3.587 horas de gravações. Para o bielorrusso, o número de participantes foi de 8.444, com 1.846 horas de fala. Já o russo contou com a colaboração de 3.296 pessoas, resultando em 278 horas de material. A língua uzbeque e ucraniana também viram melhorias em sua cobertura, com 220 e 1.104 participantes respectivamente, fornecendo gravações valiosas para o conjunto de dados.
A importância da diversidade no aprendizado de máquina
O projeto Common Voice busca não apenas ampliar a quantidade de dados de fala, mas também garantir que as amostras reflitam a diversidade de estilos de fala e pronúncias. Os participantes podem gravar frases exibidas ou validar dados já inseridos no sistema. Todo o material gerado é disponibilizado para uso irrestrito em projetos de aprendizado de máquina, facilitando a criação de sistemas de reconhecimento de fala que podem entender diferentes sotaques e variações linguísticas.
Com esse vasto acervo, o Common Voice continua a ser uma ferramenta essencial para pesquisadores e desenvolvedores que trabalham na criação de soluções de reconhecimento de fala mais inclusivas e precisas.