Um dos aplicativos de aprendizado de máquina de destaque é o Stable Diffusion, um modelo latente de difusão de texto para imagem capaz de gerar imagens fotorrealistas a partir de qualquer entrada de texto. No entanto, estendendo este tema, mas de uma perspectiva de áudio, temos o Bark, um aplicativo de áudio generativo orientado a texto. Este é um modelo de texto para áudio baseado em transformador.
Bark
O software pode gerar fala multilíngue realista, bem como outros tipos de áudio, incluindo música, ruído de fundo e efeitos sonoros simples, a partir de texto. O modelo também gera comunicações não verbais como rir, suspirar, chorar e hesitar.
Bark segue uma arquitetura de estilo GPT. Não é um modelo convencional de texto para fala, mas sim um modelo totalmente generativo de texto para áudio capaz de se desviar de maneiras inesperadas de qualquer script.
Instalação
O pessoal do Linux Links testou o Bark com uma nova instalação da distribuição Arch. Para evitar poluir o sistema deles, eles usaram o conda para instalar o Bark. Um ambiente conda é um diretório que contém uma coleção específica de pacotes conda que você instalou.
Se o seu sistema não tiver conda, instale Anaconda ou Miniconda, este último é um instalador mínimo para conda; uma pequena versão bootstrap do Anaconda que inclui apenas conda, Python, os pacotes dos quais eles dependem e um pequeno número de outros pacotes úteis, incluindo pip, zlib e alguns outros.
Existe um pacote para Miniconda no AUR que vamos instalar com o comando:
$ yay -S miniconda3
Se o seu shell for Bash ou uma variante Bourne, habilite o conda para o usuário atual com:
$ echo "[ -f /opt/miniconda3/etc/profile.d/conda.sh ] && source /opt/miniconda3/etc/profile.d/conda.sh" >> ~/.bashrc
Crie nosso ambiente conda com o comando:
$ conda create --name bark
Ative esse ambiente com o comando:
$ conda activate bark
Clone o repositório GitHub do projeto:
$ git clone https://github.com/suno-ai/bark
Mude para o diretório recém-criado e instale com pip (lembre-se de que estamos instalando em nosso ambiente conda, sem poluir nosso sistema).
cd bark && pip install
Existem alguns extras que você pode precisar fazer. A versão completa do Bark requer cerca de 12 GB de VRAM. Se sua GPU tiver menos de 12 GB de VRAM, você receberá erros como este: Oops, an error occurred: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 7.76 GiB total capacity; 6.29 GiB already allocated; 62.19 MiB free; 6.30 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC
Em vez disso, precisamos usar versões menores dos modelos. Para dizer ao Bark para usar os modelos menores, defina o sinalizador de ambiente SUNO_USE_SMALL_MODELS=True.
$ export SUNO_USE_SMALL_MODELS=True
Também instalaremos o IPython, um terminal de linha de comando interativo para Python.
$ pip install ipython
Novamente, use este comando apenas no ambiente conda.