OpenAI usou trabalhadores quenianos com menos de US$ 2 por hora para tornar o ChatGPT menos tóxico

Por Billy Perrigo | Time

Original em inglês, traduzido livremente pela bolsista da ABET Júlia Zenni Lodetti

ChatGPT foi aclamado como uma das inovações tecnológicas mais impressionantes de 2022 após seu lançamento em novembro passado. O poderoso chatbot de inteligência artificial (IA) pode gerar texto sobre quase qualquer tópico ou tema, desde um soneto de Shakespeare reimaginado no estilo de Megan Thee Stallion até teoremas matemáticos complexos descritos em uma linguagem que uma criança de 5 anos pode entender. Em uma semana, tinha mais de um milhão de usuários.

O criador do ChatGPT, OpenAI, está agora em negociações com investidores para levantar fundos em uma avaliação de US$ 29 bilhões , incluindo um investimento potencial de US$ 10 bilhões da Microsoft. Isso tornaria a OpenAI, fundada em São Francisco em 2015 com o objetivo de construir máquinas superinteligentes, uma das empresas de IA mais valiosas do mundo.

Mas a história de sucesso não é apenas dos gênios do Vale do Silício. Em sua busca para tornar o ChatGPT menos tóxico, a OpenAI usou trabalhadores terceirizados quenianos que ganhavam menos de US$ 2 por hora, descobriu uma investigação da TIME.

O trabalho foi vital para OpenAI. O antecessor do ChatGPT, GPT-3, já havia demonstrado uma capacidade impressionante de encadear frases. Mas foi difícil de vender, pois o aplicativo também era propenso a deixar escapar comentários violentos, sexistas e racistas. Isto acontece porque a IA foi treinada em centenas de milhares de milhões de palavras extraídas da Internet – um vasto repositório de linguagem humana. Esse enorme conjunto de dados de treinamento foi a razão das impressionantes capacidades linguísticas do GPT-3, mas também foi talvez a sua maior maldição. Como partes da Internet estão repletas de toxicidade e preconceito, não havia uma maneira fácil de eliminar essas seções dos dados de treinamento. Mesmo uma equipe de centenas de humanos levaria décadas para vasculhar manualmente o enorme conjunto de dados. Somente construindo um mecanismo de segurança adicional alimentado por IA é que a OpenAI seria capaz de controlar esse dano, produzindo um chatbot adequado para o uso diário.

Para construir esse sistema de segurança, a OpenAI seguiu o manual de empresas de redes sociais como o Facebook, que já tinham demonstrado que era possível construir IAs capazes de detetar linguagem tóxica, como discurso de ódio, para ajudar a removê-la das suas plataformas. A premissa era simples: alimentar uma IA com exemplos rotulados de violência, discurso de ódio e abuso sexual, e essa ferramenta poderia aprender a detectar essas formas de toxicidade na natureza. Esse detector seria integrado ao ChatGPT para verificar se estava ecoando a toxicidade de seus dados de treinamento e filtrá-lo antes mesmo de chegar ao usuário. Também poderia ajudar a eliminar textos tóxicos dos conjuntos de dados de treinamento de futuros modelos de IA.

Para obter esses rótulos, a OpenAI enviou dezenas de milhares de fragmentos de texto para uma empresa de terceirização no Quênia, a partir de novembro de 2021. Grande parte desse texto parecia ter sido retirado dos recantos mais sombrios da Internet. Alguns deles descreviam situações em detalhes gráficos, como abuso sexual infantil, bestialidade, assassinato, suicídio, tortura, automutilação e incesto.

O parceiro de terceirização da OpenAI no Quênia foi a Sama, uma empresa sediada em São Francisco que emprega trabalhadores no Quênia, Uganda e Índia para rotular dados para clientes do Vale do Silício, como Google, Meta e Microsoft. A Sama se autodenomina uma empresa de “IA ética” e afirma ter ajudado a tirar mais de 50 mil pessoas da pobreza.

Os rotuladores de dados empregados pela Sama em nome da OpenAI recebiam um salário líquido entre cerca de US$ 1,32 e US$ 2 por hora, dependendo da antiguidade e do desempenho. Para esta história, a TIME revisou centenas de páginas de documentos internos da Sama e OpenAI, incluindo recibos de vencimento dos trabalhadores, e entrevistou quatro funcionários da Sama que trabalharam no projeto. Todos os funcionários falaram sob condição de anonimato por preocupação com seus meios de subsistência.

A história dos trabalhadores que tornaram o ChatGPT possível oferece um vislumbre das condições nesta parte pouco conhecida da indústria da IA, que, no entanto, desempenha um papel essencial no esforço para tornar os sistemas de IA seguros para consumo público. “Apesar do papel fundamental desempenhado por estes profissionais de enriquecimento de dados, um conjunto crescente de pesquisas revela as condições de trabalho precárias que estes trabalhadores enfrentam”, afirma a Partnership on AI, uma coligação de organizações de IA à qual a OpenAI pertence. “Isto pode ser o resultado dos esforços para esconder a dependência da IA ​​desta grande força de trabalho ao celebrar os ganhos de eficiência da tecnologia. Longe da vista também está longe da mente.” (A OpenAI não divulga os nomes dos terceirizados com os quais tem parceria e não está claro se a OpenAI trabalhou com outras empresas de rotulagem de dados além da Sama neste projeto.)

Num comunicado, um porta-voz da OpenAI confirmou que os funcionários da Sama no Quénia contribuíram para uma ferramenta que estava a construir para detectar conteúdo tóxico, que acabou por ser incorporada no ChatGPT. A declaração também afirma que este trabalho contribuiu para os esforços para remover dados tóxicos dos conjuntos de dados de treinamento de ferramentas como o ChatGPT. “Nossa missão é garantir que a inteligência artificial geral beneficie toda a humanidade e trabalhamos duro para construir sistemas de IA seguros e úteis que limitem o preconceito e o conteúdo prejudicial”, disse o porta-voz. “Classificar e filtrar [textos e imagens] prejudiciais é uma etapa necessária para minimizar a quantidade de conteúdo violento e sexual incluído nos dados de treinamento e criar ferramentas que possam detectar conteúdo prejudicial.”

Mesmo quando a economia tecnológica em geral abranda em antecipação de uma recessão, os investidores correm para investir milhares de milhões de dólares na “IA generativa”, o sector da indústria tecnológica do qual a OpenAI é o líder indiscutível. Texto, imagens, vídeo e áudio gerados por computador transformarão a forma como inúmeras indústrias fazem negócios, acreditam os investidores mais otimistas, aumentando a eficiência em todos os lugares, desde as artes criativas até o direito e a programação de computadores. Mas as condições de trabalho dos rotuladores de dados revelam uma parte mais sombria desse quadro: que, apesar de todo o seu glamour, a IA depende frequentemente de trabalho humano oculto no Sul Global, que muitas vezes pode ser prejudicial e explorador. Estes trabalhadores invisíveis permanecem à margem, mesmo quando o seu trabalho contribui para indústrias de milhares de milhões de dólares.

Um funcionário da Sama encarregado de ler e rotular textos para OpenAI disse à TIME que sofria de visões recorrentes depois de ler uma descrição gráfica de um homem fazendo sexo com um cachorro na presença de uma criança. “Isso foi uma tortura”, disse ele. “Você lerá uma série de declarações como essa durante toda a semana. Quando chega sexta-feira, você fica perturbado ao pensar naquela imagem. A natureza traumática do trabalho acabou levando a Sama a cancelar todo o seu trabalho para a OpenAI em fevereiro de 2022, oito meses antes do planejado.

Os contratos Sama

Documentos revisados ​​pela TIME mostram que a OpenAI assinou três contratos no valor total de cerca de US$ 200.000 com a Sama no final de 2021 para rotular descrições textuais de abuso sexual, discurso de ódio e violência. Cerca de três dezenas de trabalhadores foram divididos em três equipes, uma focada em cada assunto. Três funcionários disseram à TIME que deveriam ler e rotular entre 150 e 250 passagens de texto por turno de nove horas. Esses trechos podem variar de cerca de 100 palavras a bem mais de 1.000. Todos os quatro funcionários entrevistados pela TIME descreveram estar mentalmente marcados pelo trabalho. Embora tivessem direito a assistir a sessões com conselheiros de “bem-estar”, todos os quatro disseram que estas sessões eram inúteis e raras devido às elevadas exigências para serem mais produtivos no trabalho. Dois disseram que só tiveram a opção de participar de sessões de grupo, e um disse que seus pedidos para ver conselheiros individualmente foram repetidamente negados pela administração da Sama.

Em comunicado, um porta-voz da Sama disse que era “incorreto” que os funcionários só tivessem acesso a sessões de grupo. Os funcionários tinham direito a sessões individuais e em grupo com “terapeutas de saúde mental profissionalmente treinados e licenciados”, disse o porta-voz. Esses terapeutas estavam acessíveis a qualquer momento, acrescentou o porta-voz.

Os contratos afirmavam que a OpenAI pagaria uma taxa horária de US$ 12,50 à Sama pelo trabalho, que era entre seis e nove vezes o valor que os funcionários da Sama no projeto levavam para casa por hora. Os agentes, os rotuladores de dados mais juniores que constituíam a maioria das três equipas, recebiam um salário base de 21.000 xelins quenianos (170 dólares) por mês, de acordo com três funcionários da Sama. Eles também recebiam bônus mensais no valor de cerca de US$ 70 devido à natureza explícita de seu trabalho, e receberiam comissão pelo cumprimento de indicadores-chave de desempenho, como precisão e velocidade. Um agente que trabalha em turnos de nove horas pode esperar levar para casa um total de pelo menos US$ 1,32 por hora após impostos, chegando a US$ 1,44 por hora se exceder todas as suas metas. Os analistas de qualidade – rotuladores mais experientes cujo trabalho era verificar o trabalho dos agentes – poderiam levar para casa até US$ 2 por hora se atingissem todas as suas metas. (Não existe um salário mínimo universal no Quénia, mas na altura em que estes trabalhadores estavam empregados, o salário mínimo de uma recepcionista em Nairobi era de 1,52 dólares por hora.)

Num comunicado, um porta-voz da Sama disse que os trabalhadores foram solicitados a rotular 70 passagens de texto por turno de nove horas, não até 250, e que os trabalhadores poderiam ganhar entre 1,46 e 3,74 dólares por hora, após impostos. O porta-voz se recusou a dizer quais cargos gerariam salários no topo dessa faixa. “A taxa de US$ 12,50 para o projeto cobre todos os custos, como despesas de infraestrutura, salários e benefícios para os associados e seus analistas de garantia de qualidade e líderes de equipe totalmente dedicados”, acrescentou o porta-voz.

Como o relacionamento da OpenAI com Sama entrou em colapso

Em fevereiro de 2022, o relacionamento entre Sama e OpenAI se aprofundou brevemente, apenas para vacilar. Naquele mês, Sama começou o trabalho piloto para um projeto separado para a OpenAI: coletar imagens sexuais e violentas – algumas delas ilegais segundo a lei dos EUA – para entregar à OpenAI. O trabalho de rotulagem de imagens parece não ter relação com o ChatGPT . Num comunicado, um porta-voz da OpenAI não especificou a finalidade das imagens que a empresa procurou da Sama, mas disse que rotular imagens prejudiciais era “um passo necessário” para tornar as suas ferramentas de IA mais seguras. (A OpenAI também desenvolve tecnologia de geração de imagens .) Em fevereiro, de acordo com um documento de cobrança revisado pela TIME, a Sama entregou à OpenAI um lote de amostra de 1.400 imagens. Algumas dessas imagens foram categorizadas como “C4” – rótulo interno da OpenAI que denota abuso sexual infantil – de acordo com o documento. Também foram incluídas no lote imagens “C3” (incluindo bestialidade, estupro e escravidão sexual) e imagens “V3” retratando detalhes gráficos de morte, violência ou lesões físicas graves, de acordo com o documento de cobrança. A OpenAI pagou à Sama um total de US$ 787,50 pela coleta das imagens, mostra o documento.

Em poucas semanas, a Sama cancelou todo o seu trabalho para a OpenAI – oito meses antes do acordado nos contratos. A empresa terceirizada disse em comunicado que seu acordo para coletar imagens para OpenAI não incluía qualquer referência a conteúdo ilegal, e foi somente após o início do trabalho que a OpenAI enviou “instruções adicionais” referentes a “algumas categorias ilegais”. “A equipa da África Oriental levantou imediatamente preocupações aos nossos executivos. A Sama encerrou imediatamente o piloto de classificação de imagens e avisou que cancelaríamos todos os [projetos] restantes com OpenAI”, disse um porta-voz da Sama. “As pessoas que trabalham com o cliente não examinaram a solicitação pelos canais adequados. Após uma análise da situação, os indivíduos foram demitidos e novas políticas e proteções de verificação de vendas foram implementadas.”

Um porta-voz da OpenAI disse em comunicado que a empresa não divulgou nenhuma meta de produtividade e que Sama era responsável por gerenciar os pagamentos e as provisões de saúde mental dos funcionários. O porta-voz acrescentou: “levamos muito a sério a saúde mental dos nossos funcionários e dos nossos contratados. Nosso entendimento anterior era que [na Sama] eram oferecidos programas de bem-estar e aconselhamento individual, os trabalhadores poderiam optar por não participar de qualquer trabalho sem penalização, a exposição a conteúdo explícito teria um limite e as informações confidenciais seriam tratadas por trabalhadores especificamente treinados fazer isso.”

No trabalho diário de rotulagem de dados no Quénia, por vezes surgiam casos extremos que mostravam a dificuldade de ensinar uma máquina a compreender as nuances. Um dia, no início de março do ano passado, um funcionário da Sama estava no trabalho lendo uma história explícita sobre o companheiro de Batman, Robin, sendo estuprado no covil de um vilão. (Uma pesquisa online pelo texto revela que ele se originou de um site erótico online, onde é acompanhado por imagens sexuais explícitas.) O início da história deixa claro que o sexo não é consensual. Mais tarde, porém, depois de uma descrição graficamente detalhada da penetração, Robin começa a retribuir. O funcionário da Sama encarregado de rotular o texto pareceu confuso com o consentimento ambíguo de Robin e pediu esclarecimentos aos pesquisadores da OpenAI sobre como rotular o texto, de acordo com documentos vistos pela TIME. A passagem deveria ser rotulada como violência sexual, ela perguntou, ou não? A resposta da OpenAI, se alguma vez chegou, não está registrada no documento; a empresa não quis comentar. O funcionário da Sama não respondeu ao pedido de entrevista.

Em comunicado, a OpenAI confirmou que recebeu 1.400 imagens da Sama que “incluíam, mas não estavam limitadas a, imagens C4, C3, C2, V3, V2 e V1”. Numa declaração de acompanhamento, a empresa disse: “Contratamos a Sama como parte do nosso trabalho contínuo para criar sistemas de IA mais seguros e prevenir resultados prejudiciais. Nunca pretendemos que qualquer conteúdo da categoria C4 fosse coletado. Este conteúdo não é necessário como entrada para nossos filtros de pré-treinamento e instruímos nossos funcionários a evitá-lo ativamente. Assim que Sama nos informou que havia tentado coletar conteúdo nesta categoria, esclarecemos que houve um erro de comunicação e que não queríamos esse conteúdo. E depois de percebermos que houve uma falha de comunicação, não abrimos nem visualizamos o conteúdo em questão – portanto, não podemos confirmar se continha imagens na categoria C4.”

A decisão da Sama de encerrar seu trabalho com a OpenAI significou que os funcionários da Sama não precisaram mais lidar com textos e imagens perturbadoras, mas também teve um grande impacto em seus meios de subsistência. Os trabalhadores da Sama afirmam que no final de fevereiro de 2022 foram convocados para uma reunião com membros da equipa de recursos humanos da empresa, onde foram informados da notícia. “Fomos informados de que eles [Sama] não queriam expor seus funcionários a esse tipo de conteúdo [perigoso] novamente”, disse um funcionário da Sama envolvido nos projetos de rotulagem de texto. “Respondemos que para nós era uma forma de sustentar nossas famílias.” A maioria das cerca de três dúzias de trabalhadores foi transferida para outros fluxos de trabalho com salários mais baixos, sem o bônus de conteúdo explícito de US$ 70 por mês; outros perderam seus empregos. Sama entregou seu último lote de dados rotulados à OpenAI em março, oito meses antes do término do contrato.

Como os contratos foram cancelados antecipadamente, tanto a OpenAI quanto a Sama disseram que os US$ 200 mil que haviam acordado anteriormente não foram pagos integralmente. A OpenAI disse que os contratos valiam “cerca de US$ 150.000 ao longo da parceria”.

Funcionários da Sama afirmam que receberam outro motivo para o cancelamento dos contratos por parte de seus gestores. Em 14 de fevereiro, a TIME publicou uma história intitulada Inside Facebook’s African Sweatshop . A investigação detalhou como Sama empregou moderadores de conteúdo para o Facebook, cujos trabalhos envolviam a visualização de imagens e vídeos de execuções, estupros e abusos infantis por apenas US$ 1,50 por hora. Quatro funcionários da Sama disseram que foram informados de que a investigação motivou a decisão da empresa de encerrar seu trabalho para a OpenAI. (O Facebook afirma que exige que seus parceiros de terceirização “forneçam salários, benefícios e suporte líderes do setor”.)

Comunicações internas posteriores à publicação da história no Facebook, revisadas pela TIME, mostram os executivos da Sama em São Francisco lutando para lidar com as consequências das relações públicas, inclusive obrigando uma empresa, uma subsidiária da Lufthansa, que queria que evidências de seu relacionamento comercial com a Sama fossem apagadas do site da empresa de terceirização. Em comunicado à TIME, a Lufthansa confirmou que tal ocorreu e acrescentou que a sua subsidiária zeroG posteriormente encerrou os seus negócios com a Sama. Em 17 de fevereiro, três dias após a publicação da investigação da TIME, a CEO da Sama, Wendy Gonzalez, enviou uma mensagem a um grupo de executivos seniores via Slack: “Vamos encerrar o trabalho da OpenAI”.

No dia 10 de janeiro deste ano, a Sama deu um passo além, anunciando que estava cancelando todo o restante de seus trabalhos com conteúdo sensível. A empresa disse que não renovaria seu contrato de moderação de conteúdo de US$ 3,9 milhões com o Facebook, resultando na perda de cerca de 200 empregos em Nairóbi. “Após inúmeras discussões com nossa equipe global, Sama tomou a decisão estratégica de abandonar todo o trabalho [de processamento de linguagem natural] e moderação de conteúdo para se concentrar em soluções de anotação de dados de visão computacional”, disse a empresa em comunicado. “Passamos o ano passado trabalhando com clientes para fazer a transição desses compromissos e a saída estará concluída em março de 2023.”

Mas a necessidade de os humanos rotularem os dados para os sistemas de IA permanece, pelo menos por enquanto. “Eles são impressionantes, mas o ChatGPT e outros modelos generativos não são mágicos – eles dependem de enormes cadeias de fornecimento de trabalho humano e de dados coletados, muitos dos quais não são atribuídos e são usados ​​sem consentimento”, escreveu recentemente Andrew Strait, um especialista em ética em IA, em Twitter. “Esses são problemas sérios e fundamentais que não vejo a OpenAI resolvendo.”

Clique aqui e acesse a matéria completa

Por Billy Perrigo | Time
Data original de publicação: 18/01/2023

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Translate »