Imagine que você está caminhando com sua família em Wisconsin e encontra um urso preto. Você diz: “Oh, eu conheço esse urso! Ele é bem treinado. Aqui, deixe seus filhos alimentá-lo com nozes e frutas vermelhas.” Você deixaria seus filhos alimentarem o urso? Provavelmente não.
Essa é, grosso modo, a situação que as empresas enfrentam quando criam análises com IA generativa. Não importa como você treina um Modelo de Linguagem Grande (LLM), ele ainda é um animal selvagem e ocasionalmente perigoso. Sabemos o que os LLMs fazem, mas não controlamos o que eles geram ou mesmo sabemos como e por que eles funcionam.
Se você alimentar o LLM com seus dados, isso pode voltar para mordê-lo (trocadilho intencional). Quero discutir os principais riscos — segurança de dados e alucinações — e maneiras de superá-los.
Práticas de Dados Seguros para Uso do LLM
Para Codificadores
- Envie um esquema de um conjunto de dados para um LLM e pergunte como ele resolveria uma questão analítica sobre esse conjunto.
- Teste previamente a confiabilidade de um LLM em tipos de perguntas, perguntando algo cuja resposta você já sabe e avaliando os resultados.
Para Não Programadores
- Use uma plataforma de análise que fique entre o usuário e o LLM e proteja os dados corporativos deste último.
- Reserve análises generativas de IA para dados que já são públicos.
LLMs Não Podem Garantir a Segurança dos Dados
Para as empresas, a principal preocupação com os LLMs é o que eles fazem com dados confidenciais. Se alguém vazar informações identificáveis de clientes ou dados proprietários para partes maliciosas, processos judiciais certamente seguirão. Embora os fornecedores de LLM tentem mitigar esse risco, eles não podem (e não) garantem que seus dados corporativos permanecerão privados. Além disso, é impossível avaliar suas alegações de segurança. Como eu saberia se um terceiro acessou meus dados, a menos que eles fizessem algo malicioso com eles?
Mesmo assim, aposto que funcionários em todo o mundo estão carregando dados corporativos em LLMs, sem o conhecimento de seus departamentos de TI. Isso aconteceu com o compartilhamento de armazenamento em nuvem logo depois que o Dropbox e o Box estrearam, e aconteceu com tantos outros aplicativos de nuvem que surgiu uma palavra da moda para eles: TI desonesta. Em vez de lutar uma batalha árdua contra a TI desonesta, a maioria das empresas tentou popularizar e proteger as ferramentas que seus funcionários já usam.
Isso não é tão fácil quanto com LLMs porque, novamente, não sabemos como eles funcionam. Além disso, os termos de serviço são vagos. Algumas plataformas usam explicitamente seus dados para treinamento; outras restringem esse uso dependendo de como você compartilha os dados (por meio de uma interface de bate-papo contra API, por exemplo). Independentemente disso, uma vez que o LLM tenha esses dados, ele pode revelá-los a outros usuários. Na verdade, os pesquisadores têm manipulado LLMs para revelar seus dados de treinamento, que eles descobriram conter informações pessoais sobre pessoas reais.
Não é de se admirar que algumas empresas proíbam os funcionários de usar LLMs ou proíbam o upload de dados para eles. Ninguém quer ser a cobaia em experimentos de conformidade com um urso selvagem.
Este Código Foi Trazido a Você pela Alucinação
Dados os riscos para a segurança dos dados, os especialistas em código, cientistas de dados e analistas encontraram soluções alternativas para compartilhar dados com LLMs. O mais comum é usar LLMs para geração de código e, em seguida, conectar o código a um fluxo de trabalho de dados em, digamos, um Caderno Jupyter. Embora isso possa ser mais rápido do que escrever código do zero ou copiá-lo e colá-lo de sites como o Stack Overflow, o risco de alucinações permanece.
Precisamos ter cuidado com o termo alucinação, que normalmente se refere a informações factualmente incorretas de um LLM. Andrej Karpathy, um cofundador da OpenAI, tem argumentado que “Alucinação é tudo o que os LLMs fazem. Eles são máquinas de sonho.” Não acho que ele esteja sugerindo que os LLMs são como ursos sob efeito de psilocibina. Em vez disso, alucinar é uma característica, não um bug, dos LLMs.
O ônus então recai sobre os usuários para inspecionar e validar o código de saída antes de incorporá-lo a um fluxo de trabalho de dados. Infelizmente, isso mata uma proposta de valor fundamental para a IA generativa, que é como ela permite que pessoas sem nenhum conhecimento de Python, SQL ou ciência de dados para realizar análises sofisticadas.
Segurança em Bear Country
Há maneiras de usar LLMs para análise sem entregar nenhum dado. Há também maneiras de melhorar as chances de obter alucinações factualmente corretas em oposição às falsas. Algumas dessas opções são acessíveis a não codificadores, e outras não.
Primeiro, você pode enviar um esquema de um conjunto de dados
Os nomes das colunas e suas definições em um negócio específico para um LLM. Então, pergunte ao LLM como ele resolveria uma questão analítica sobre esse conjunto de dados. Você pode perguntar ao LLM como ele chegou à resposta antes de usá-la em um notebook. Isso exigirá algum conhecimento de codificação e experiência com ferramentas profissionais de ciência de dados.
Segundo, você pode pré-testar a confiabilidade de um LLM em tipos de perguntas
Perguntando algo que você já sabe a resposta. Se eu tiver um conjunto de dados sobre rotatividade de clientes e já souber qual variável prevê melhor a rotatividade, posso pedir ao LLM para produzir uma análise usando o método de esquema discutido acima. Se ele chegar à mesma conclusão, posso ficar mais confiante quando solicitar o código para uma análise de rotatividade em um novo conjunto de dados que usa o mesmo esquema. Concedido, o código pode mudar cada vez que eu solicitar essa análise porque os LLMs são não determinísticos, o que significa que o que você diz em inglês e o que eles dizem em inglês não correspondem ao código exato.
Para não programadores, há pelo menos duas opções seguras
Uma é usar uma plataforma de análise que fica entre o usuário e o LLM e protege os dados corporativos do último. Essa plataforma deve automatizar o processo de envio de esquema para o LLM, conforme descrito acima, e incluir exemplos contendo perguntas e soluções que são relevantes para o prompt do usuário. Esses exemplos reduzem as chances de alucinação.
A outra opção segura é reservar análises de IA generativas para dados que já são públicos. O governo federal dos EUA, por exemplo, publica dados abertos em data.gov, enquanto plataformas como Kaggle, Quandl e data.world listam conjuntos de dados públicos que podem informar decisões empresariais. Google’s Dataset Search é provavelmente a ferramenta mais poderosa para encontrar conjuntos de dados abertos. Se um não-codificador suspeitar de uma alucinação ao trabalhar com esses conjuntos de dados, ele pode pedir ao LLM para explicar em inglês simples como ele chegou à resposta.
Segurança versus Conveniência
Seria mais fácil simplesmente entregar conjuntos de dados para LLMs e pedir uma resposta, dane-se a segurança? Sim, embora limites de token possam impedir o LLM de analisar um grande conjunto de dados de qualquer maneira. Construir seu próprio LLM ou obter uma instância privada de um LLM resolveria os problemas de segurança? Sim, mas poucas empresas têm o know-how ou o orçamento para sequer considerar essas opções.
Parece que os LLMs não “democratizaram a ciência de dados” ou algo parecido. Eles permitiram que cientistas de dados acelerassem fluxos de trabalho e permitiram que fornecedores de software projetassem soluções analíticas que dependem de LLMs, mantendo-os a uma distância segura.
Então lembre-se, ninguém controla o comportamento do LLM. Esteja caware da IA. Não alimente ninguém com seus dados sem tomar precauções.
Perguntas Frequentes
1. O que são LLMs e por que eles são considerados perigosos?
LLMs (Modelos de Linguagem Grande) são modelos de inteligência artificial que podem gerar texto de forma autônoma. Eles são considerados perigosos porque não controlamos o que eles geram e não sabemos exatamente como funcionam.
2. Quais são os principais riscos associados ao uso de LLMs?
Os principais riscos incluem segurança de dados e alucinações. A segurança de dados refere-se ao risco de vazamento de informações confidenciais, enquanto alucinações são informações factualmente incorretas geradas pelo LLM.
3. Como os codificadores podem usar LLMs de forma segura?
Os codificadores podem enviar um esquema de um conjunto de dados para um LLM e perguntar como ele resolveria uma questão analítica sobre esse conjunto. Eles também podem testar previamente a confiabilidade de um LLM em tipos de perguntas, perguntando algo cuja resposta já sabem e avaliando os resultados.
4. Quais são as práticas seguras para não programadores ao usar LLMs?
Os não programadores podem usar uma plataforma de análise que fique entre o usuário e o LLM e proteja os dados corporativos. Eles também podem reservar análises generativas de IA para dados que já são públicos.
5. Por que é importante inspecionar e validar o código gerado por LLMs?
Inspecionar e validar o código gerado por LLMs é crucial porque eles podem gerar informações factualmente incorretas, conhecidas como alucinações. Isso garante que o código seja preciso e seguro antes de ser incorporado a um fluxo de trabalho de dados.
Conclusão
A segurança de dados e as alucinações são desafios significativos ao usar LLMs para análises. Embora esses modelos ofereçam grandes benefícios, como a aceleração de fluxos de trabalho e a criação de soluções analíticas, eles também apresentam riscos que não podem ser ignorados. As empresas devem adotar práticas seguras, como enviar esquemas de dados e pré-testar a confiabilidade dos LLMs, para mitigar esses riscos. Além disso, é crucial inspecionar e validar o código gerado por LLMs para garantir sua precisão e segurança.
Em resumo, enquanto os LLMs podem ser ferramentas poderosas, eles exigem um manuseio cuidadoso para evitar consequências negativas. Esteja ciente dos riscos e tome precauções adequadas para proteger seus dados e garantir a integridade das análises geradas.