GitHub acusado de alterar código de saída do Copilot para evitar problemas de direitos autorais

GitHub acusado de alterar código de saída do Copilot para evitar problemas de direitos autorais
github

O GitHub teria ajustado seu assistente de programação Copilot para gerar pequenas variações do código de treinamento para evitar que a saída fosse sinalizada como uma cópia direta do software licenciado. Em outras palavras, o GitHub é acusado de alterar código de saída do Copilot para evitar problemas de direitos autorais.

Esta afirmação apareceu na quinta-feira na reclamação [PDF] contra a Microsoft, GitHub e OpenAI sobre a propensão documentada do Copilot para reproduzir o código licenciado de código aberto publicado publicamente pelos desenvolvedores.

O processo, inicialmente aberto em novembro passado em nome de quatro autores não identificados (“J. Doe”), afirma que o Copilot – uma ferramenta de sugestão de código construída a partir do modelo Codex da OpenAI e comercializada pelo GitHub da Microsoft – foi treinado em código publicado publicamente de uma forma que viole a lei de direitos autorais e os requisitos de licenciamento de software e que apresente o código de outras pessoas como seu.

GitHub acusado de alterar código de saída do Copilot para evitar problemas de direitos autorais

Microsoft, GitHub e OpenAI tentaram arquivar o caso, mas conseguiram apenas afastar algumas das reivindicações. O juiz deixou intactas as principais questões de direitos autorais e licenciamento e permitiu que os queixosos apresentassem várias outras reivindicações com mais detalhes.

A reclamação alterada – agora cobrindo oito acusações em vez de doze – mantém as acusações de violação da Lei de Direitos Autorais do Milênio Digital, quebra de contrato (violações de licença de código aberto), enriquecimento injusto e reivindicações de concorrência desleal.

Acrescenta várias outras alegações no lugar daquelas enviadas de volta para revisão: quebra de contrato (venda de materiais licenciados em violação das políticas do GitHub), interferência intencional em relações econômicas prospectivas e interferência negligente em relações econômicas prospectivas.

A reclamação revisada acrescenta um autor “J. Doe” adicional cujo código Copilot supostamente reproduziu. E inclui código de exemplo escrito pelos queixosos que o Copilot supostamente reproduziu literalmente, embora apenas para o tribunal – os exemplos de código foram redigidos para evitar que os queixosos fossem identificados.

O juiz que supervisiona o caso permitiu que os queixosos permanecessem anônimos em processos judiciais por causa de ameaças críveis de violência [PDF] dirigidas a seu advogado. O Registro entende que os autores são conhecidos dos réus.

Um plano inteligente?

GitHub acusado de alterar código de saída do Copilot para evitar  problemas de direitos autorais

O processo legal de quinta-feira diz que em julho de 2022, em resposta às críticas públicas ao Copilot, o GitHub introduziu um filtro Copilot ajustável pelo usuário chamado “Sugestões correspondentes ao código público” para evitar ver sugestões de software que duplicam o trabalho de outras pessoas.

“Quando o filtro está ativado, o GitHub Copilot verifica as sugestões de código com o código circundante de cerca de 150 caracteres em relação ao código público no GitHub”, explica a documentação do GitHub. “Se houver uma correspondência ou quase correspondência, a sugestão não será exibida para você.”

No entanto, a reclamação afirma que o filtro é essencialmente inútil porque apenas verifica as correspondências exatas e não faz nada para detectar a saída que foi ligeiramente modificada. Na verdade, os queixosos sugerem que o GitHub está tentando se livrar das violações de direitos autorais e licenças variando a saída do Copilot para que não pareça ter sido copiado exatamente.

“Nas mãos do GitHub, a propensão para pequenas variações cosméticas na saída do Copilot é um recurso, não um bug”, diz a reclamação corrigida. “Essas pequenas variações cosméticas significam que o GitHub pode fornecer aos clientes do Copilot cópias modificadas ilimitadas de materiais licenciados sem nunca acionar o filtro de código literal do Copilot”.

O processo judicial aponta que os modelos de aprendizado de máquina como o Copilot têm um parâmetro que controla a extensão em que a saída varia.

“Com base em informações e crenças, o GitHub otimizou a configuração de temperatura do Copilot para produzir pequenas variações cosméticas dos Materiais Licenciados sempre que possível, para que o GitHub possa fornecer código aos usuários do Copilot que funcione da mesma maneira que o código literal, enquanto afirma que o Copilot só produz código literal em um por cento do tempo”, diz a queixa corrigida. “Copilot é um método engenhoso de pirataria de software.”

O GitHub da Microsoft em um e-mail insistiu no contrário.

“Acreditamos firmemente que a IA transformará a maneira como o mundo cria software, levando a uma maior produtividade e, o mais importante, a desenvolvedores mais felizes”, disse um porta-voz da empresa ao The Register . “Estamos confiantes de que o Copilot cumpre as leis aplicáveis ??e estamos comprometidos em inovar de forma responsável com o Copilot desde o início. Continuaremos a investir e defender a experiência do desenvolvedor com tecnologia de IA do futuro.”

A OpenAI não respondeu a um pedido de comentário.