Temos a tendência de pensar que algoritmos são melhores em tomar decisões do que nós – eles são máquinas não afetadas por emoções humanas. Mas, assim como nós, algoritmos podem ter vieses. Afinal, humanos criam algoritmos, e nós temos vieses que trabalhamos para eliminar. Na melhor das hipóteses, um modelo reflete os vieses dos dados

A tendência de acreditar que algoritmos são melhores em tomar decisões do que os humanos é comum. Afinal, algoritmos são máquinas não afetadas por emoções humanas. No entanto, assim como nós, algoritmos podem ter vieses. Afinal, humanos criam algoritmos, e nós temos vieses que trabalhamos para eliminar. Na melhor das hipóteses, um modelo reflete os vieses dos dados que vão para seu treinamento. Na pior das hipóteses, ele aumenta esses vieses.

Priorizando a Diversidade de Dados

Qualquer modelo, seja atribuindo pontuações de crédito ou escaneando um campo de cultivo, é tão bom quanto seus dados, e precisa de muito mais dados do que um humano pode razoavelmente olhar para tomar as decisões certas. Mesmo assim, você pode e deve analisar os dados que está usando para ter certeza de que entende o que seu modelo está aprendendo.

Tomemos, por exemplo, um modelo que está sendo utilizado em tecnologia agrícola. Um modelo de visão computacional que escaneia um campo teria que lidar com as seguintes variáveis para ser eficaz: padrões climáticos, diferentes tipos de solo e coloração, um grande número de espécies de pragas, indicadores de doenças, ervas daninhas que muitas vezes podem imitar de perto as plantas com as quais estão misturadas… e isso é só o começo.

Por exemplo, em um modelo de tecnologia agrícola, dois tipos de insetos parecem quase iguais. Um ajuda os campos dos seus clientes e o outro não. Se os dados não cobrirem adequadamente os dois tipos de insetos, então um modelo pode perder a necessidade de pulverizar e resultar em maior perda de colheita.

Isso não pode ser uma etapa única no início do desenvolvimento. Em vez disso, crie flexibilidade em seu processo de desenvolvimento para procurar problemas ocultos em seus dados. Depois de identificar exemplos de viés em seus dados de treinamento, você pode usar ferramentas para encontrar mais desses dados potencialmente problemáticos para corrigir quaisquer problemas adicionando dados mais diversos — ou até mesmo removendo os dados problemáticos completamente.

Em última análise, se você não tiver diversidade de dados suficiente e seus dados não refletirem o mundo real com precisão, os vieses podem acabar se autoperpetuando.

Identificando Proativamente Seus Casos Extremos

Casos extremos são importantes o suficiente para que valha a pena chamá-los por si só. Por exemplo, como é a aparência de um pedestre em direção autônoma? Parece uma questão simples de abordar, mas quando um veículo pode atingir e ferir ou até matar alguém, esses casos extremos se tornam críticos. Dependendo do clima, a roupa de alguém, digamos, se estiver vestido de cinza em um dia nublado, pode dificultar que o modelo o distinga como uma pessoa.

Assim como é impossível para uma pessoa olhar todos os dados de um modelo de uma vez, também é impossível incluir todos os pedestres, trajes e tipos de clima imagináveis nos dados do modelo. Seria muito difícil de manejar e exigiria muito poder de computação.

Analise ativamente seus dados e onde eles podem ser tendenciosos na identificação (ou não) de pedestres corretamente e, em seguida, insira mais dados para abordar o problema proativamente, o que reduz o risco de seu modelo tomar a decisão errada no pior momento possível. Na verdade, é aqui que os dados sintéticos podem acabar desempenhando o maior papel: quando validado, ele pode preencher as lacunas deixadas pelos dados tradicionais.

Objetivo de Anotação de Dados Precisa e Consistente

Ruído em seus dados é inevitável. Erros em seus dados anotados também, porque humanos estão cometendo esses erros enquanto anotam. Embora 95 por cento de precisão de dados seja um limite aceitável em alguns casos, cavar mais fundo nos dados pode mostrar que ainda há lacunas.

Aqui está um exemplo: Anotando motocicletas para um modelo de condução autónoma. O conjunto geral de dados pode ser lido como 97% preciso, mas se as motocicletas forem anotadas corretamente apenas 50% das vezes, o modelo terá muita dificuldade em registrar motocicletas na estrada.

Esses erros podem se agravar e ser ainda mais exacerbados se os anotadores que trabalham no seu projeto não tiverem instruções claras. Pensando de volta no nosso exemplo AgTech dos dois insetos, ter a quantidade certa de dados é importante, mas também é importante garantir que os anotadores saibam sobre os dois tipos de insetos e o que é necessário. Se as instruções que você dá aos seus anotadores não diferenciam entre os dois, e os anotadores não percebem que há uma diferença, seu modelo pode agrupar todos esses bugs e resultar em fazendeiros usando mais pesticidas do que o realmente necessário.

Obviamente, você quer escolher um parceiro com experiência comprovada em seu setor, mas parte da responsabilidade também recai sobre você: colaborar com seu parceiro de anotação para garantir que as instruções sejam claras e específicas para chegar o mais próximo possível da precisão e consistência completas.

Entendendo Onde e Por Que Seu Modelo Está Falhando

Todos os modelos cometem erros. Como a explicabilidade do modelo é uma espécie de caixa-preta, pode ser difícil aumentar o desempenho de forma significativa. A humano-no-circuito (HITL) O processo de validação do modelo pode aumentar drasticamente o desempenho de cauda longa e impulsionar a maturidade do modelo ao validar previsões e fornecer visibilidade sobre exatamente quando e onde seus modelos estão falhando.

Uma abordagem de validação HITL fornece insights de nível profundo sobre onde falsos positivos e negativos estão acontecendo ou em quais cenários um modelo tem mais probabilidade de fazer uma previsão imprecisa. Por exemplo, se um modelo de direção autônoma está identificando corretamente os ônibus apenas 30% das vezes, e 40% das vezes ele confunde ônibus com caminhões, esse é um problema crítico e que pode ser corrigido. Pode ser tão simples quanto adicionar uma nova classe de veículo, como “veículo de entrega”, que descreve melhor alguns dos erros cometidos com os rótulos atuais.

Depois de entender onde e por que seu modelo está falhando, você pode obter novos dados de treinamento para ajustar seu modelo e, finalmente, melhorar o desempenho.

Verificando Constantemente Seu Modelo

Nada no mundo é estático, então por que seu modelo deveria ser? Por exemplo, a mudança climática pode ter um efeito significativo nas condições climáticas. Como resultado, nosso modelo de tecnologia agrícola com os insetos precisará acompanhar as mudanças nas condições do solo (como mais rachaduras) ou na cor (tons menos saturados de marrom ou preto) devido a diferentes quantidades de chuva.

Outro exemplo seria um modelo usado no varejo para fazer recomendações sobre peças que combinam com um top ou um sofá novo que um cliente está comprando. Como esses modelos dependem de tendências, eles precisam ser atualizados com essas tendências, por exemplo, estilos populares ou esquemas de cores.

Mesmo que não haja uma grande mudança na situação em que seu modelo opera, avaliar seu desempenho deve ser uma parte regular do seu processo. Ao verificar regularmente as decisões do seu modelo, você pode detectar mudanças ou vieses antes que se tornem problemas reais.

À medida que os modelos de ML continuam a proliferar, mitigar os efeitos do preconceito está se tornando mais importante do que nunca. Começa nos dados que alimentam seu modelo, de um conjunto representativo para um adequadamente rotulado, e o processo nunca termina de fato. Por meio de trabalho próximo com parceiros de anotação e avaliação constante, você pode construir um modelo menos tendencioso e de melhor desempenho.

Tabela Explicativa: Passos para Eliminar Vieses em Algoritmos

PassoDescrição
1Priorize a diversidade de dados
2Identifique proativamente seus casos extremos
3Obtenha anotações de dados de alta qualidade, precisas e consistentes
4Entenda onde e por que seu modelo está falhando
5Verifique constantemente seu modelo

Perguntas Frequentes

1. Por que é importante priorizar a diversidade de dados?

Priorizar a diversidade de dados é crucial porque modelos de aprendizado de máquina dependem de dados representativos para fazer previsões precisas. Sem diversidade, os modelos podem refletir e amplificar vieses existentes nos dados de treinamento.

2. Como identificar proativamente casos extremos?

Identificar proativamente casos extremos envolve analisar ativamente os dados para encontrar situações onde o modelo pode falhar, como identificar pedestres em diferentes condições climáticas. Isso pode ser feito usando dados sintéticos para preencher lacunas nos dados tradicionais.

3. Qual é a importância de anotações de dados precisas e consistentes?

Anotações de dados precisas e consistentes são essenciais para garantir que o modelo aprenda corretamente. Erros nas anotações podem levar a previsões imprecisas e, em alguns casos, a consequências graves, como falhas na identificação de veículos em modelos de direção autônoma.

4. Como entender onde e por que um modelo está falhando?

Entender onde e por que um modelo está falhando pode ser feito através de uma abordagem de validação HITL (Human-in-the-Loop). Isso envolve validar previsões e fornecer visibilidade sobre onde falsos positivos e negativos estão ocorrendo, permitindo ajustes no modelo.

5. Por que é importante verificar constantemente o modelo?

Verificar constantemente o modelo é importante porque o mundo não é estático. Condições e tendências mudam, e os modelos precisam ser atualizados para refletir essas mudanças. Avaliar regularmente o desempenho do modelo ajuda a detectar e corrigir vieses antes que se tornem problemas reais.

Conclusão

Eliminar vieses em algoritmos de aprendizado de máquina é um processo contínuo que começa com a diversidade de dados e a precisão das anotações. Identificar proativamente casos extremos e entender onde e por que o modelo está falhando são passos cruciais para melhorar o desempenho. A verificação constante do modelo é essencial para garantir que ele continue a refletir o mundo real de maneira precisa e justa. Ao seguir esses passos, podemos construir modelos menos tendenciosos e de melhor desempenho, mitigando os efeitos do preconceito e promovendo decisões mais justas e precisas.

Temos a tendência de pensar que algoritmos são melhores em tomar decisões do que nós – eles são máquinas não afetadas por emoções humanas. Mas, assim como nós, algoritmos podem ter vieses. Afinal, humanos criam algoritmos, e nós temos vieses que trabalhamos para eliminar. Na melhor das hipóteses, um modelo reflete os vieses dos dados
Temos a tendência de pensar que algoritmos são melhores em tomar decisões do que nós – eles são máquinas não afetadas por emoções humanas. Mas, assim como nós, algoritmos podem ter vieses. Afinal, humanos criam algoritmos, e nós temos vieses que trabalhamos para eliminar. Na melhor das hipóteses, um modelo reflete os vieses dos dados
Temos a tendência de pensar que algoritmos são melhores em tomar decisões do que nós – eles são máquinas não afetadas por emoções humanas. Mas, assim como nós, algoritmos podem ter vieses. Afinal, humanos criam algoritmos, e nós temos vieses que trabalhamos para eliminar. Na melhor das hipóteses, um modelo reflete os vieses dos dados
Registro Rápido

Negociação de moedas, metais, petróleo, criptomoedas, conta demo com $10.000.

92%
Pontuação de Confiança