O GitHub teria ajustado seu assistente de programação Copilot para gerar pequenas variações do código de treinamento para evitar que a saída fosse sinalizada como uma cópia direta do software licenciado. Em outras palavras, o GitHub é acusado de alterar código de saída do Copilot para evitar problemas de direitos autorais.
Esta afirmação apareceu na quinta-feira na reclamação [PDF] contra a Microsoft, GitHub e OpenAI sobre a propensão documentada do Copilot para reproduzir o código licenciado de código aberto publicado publicamente pelos desenvolvedores.
O processo, inicialmente aberto em novembro passado em nome de quatro autores não identificados (“J. Doe”), afirma que o Copilot – uma ferramenta de sugestão de código construída a partir do modelo Codex da OpenAI e comercializada pelo GitHub da Microsoft – foi treinado em código publicado publicamente de uma forma que viole a lei de direitos autorais e os requisitos de licenciamento de software e que apresente o código de outras pessoas como seu.
GitHub acusado de alterar código de saída do Copilot para evitar problemas de direitos autorais
Microsoft, GitHub e OpenAI tentaram arquivar o caso, mas conseguiram apenas afastar algumas das reivindicações. O juiz deixou intactas as principais questões de direitos autorais e licenciamento e permitiu que os queixosos apresentassem várias outras reivindicações com mais detalhes.
A reclamação alterada – agora cobrindo oito acusações em vez de doze – mantém as acusações de violação da Lei de Direitos Autorais do Milênio Digital, quebra de contrato (violações de licença de código aberto), enriquecimento injusto e reivindicações de concorrência desleal.
Acrescenta várias outras alegações no lugar daquelas enviadas de volta para revisão: quebra de contrato (venda de materiais licenciados em violação das políticas do GitHub), interferência intencional em relações econômicas prospectivas e interferência negligente em relações econômicas prospectivas.
A reclamação revisada acrescenta um autor “J. Doe” adicional cujo código Copilot supostamente reproduziu. E inclui código de exemplo escrito pelos queixosos que o Copilot supostamente reproduziu literalmente, embora apenas para o tribunal – os exemplos de código foram redigidos para evitar que os queixosos fossem identificados.
O juiz que supervisiona o caso permitiu que os queixosos permanecessem anônimos em processos judiciais por causa de ameaças críveis de violência [PDF] dirigidas a seu advogado. O Registro entende que os autores são conhecidos dos réus.
Um plano inteligente?
O processo legal de quinta-feira diz que em julho de 2022, em resposta às críticas públicas ao Copilot, o GitHub introduziu um filtro Copilot ajustável pelo usuário chamado “Sugestões correspondentes ao código público” para evitar ver sugestões de software que duplicam o trabalho de outras pessoas.
“Quando o filtro está ativado, o GitHub Copilot verifica as sugestões de código com o código circundante de cerca de 150 caracteres em relação ao código público no GitHub”, explica a documentação do GitHub. “Se houver uma correspondência ou quase correspondência, a sugestão não será exibida para você.”
No entanto, a reclamação afirma que o filtro é essencialmente inútil porque apenas verifica as correspondências exatas e não faz nada para detectar a saída que foi ligeiramente modificada. Na verdade, os queixosos sugerem que o GitHub está tentando se livrar das violações de direitos autorais e licenças variando a saída do Copilot para que não pareça ter sido copiado exatamente.
“Nas mãos do GitHub, a propensão para pequenas variações cosméticas na saída do Copilot é um recurso, não um bug”, diz a reclamação corrigida. “Essas pequenas variações cosméticas significam que o GitHub pode fornecer aos clientes do Copilot cópias modificadas ilimitadas de materiais licenciados sem nunca acionar o filtro de código literal do Copilot”.
O processo judicial aponta que os modelos de aprendizado de máquina como o Copilot têm um parâmetro que controla a extensão em que a saída varia.
“Com base em informações e crenças, o GitHub otimizou a configuração de temperatura do Copilot para produzir pequenas variações cosméticas dos Materiais Licenciados sempre que possível, para que o GitHub possa fornecer código aos usuários do Copilot que funcione da mesma maneira que o código literal, enquanto afirma que o Copilot só produz código literal em um por cento do tempo”, diz a queixa corrigida. “Copilot é um método engenhoso de pirataria de software.”
O GitHub da Microsoft em um e-mail insistiu no contrário.
“Acreditamos firmemente que a IA transformará a maneira como o mundo cria software, levando a uma maior produtividade e, o mais importante, a desenvolvedores mais felizes”, disse um porta-voz da empresa ao The Register . “Estamos confiantes de que o Copilot cumpre as leis aplicáveis ??e estamos comprometidos em inovar de forma responsável com o Copilot desde o início. Continuaremos a investir e defender a experiência do desenvolvedor com tecnologia de IA do futuro.”
A OpenAI não respondeu a um pedido de comentário.