A inteligência artificial (IA) está se tornando uma parte cada vez mais importante da vida humana à medida que é aplicada a vários domínios, como saúde, educação, entretenimento, segurança e muito mais. Além disso, os modelos atuais alimentados por IA têm o potencial de nos ajudar a compreender e mitigar os efeitos das alterações climáticas, como o desenvolvido pela IBM e pela NASA para monitorizar as emissões de gases com efeito de estufa e prever eventos climáticos extremos.
No entanto, estes modelos – como o ChatGPT – também têm um impacto ambiental significativo, pois requerem grandes quantidades de energia para funcionar e treinar. Esta tendência para a IA em grande escala poderá fazer com que os centros de dados consumam até 21% do fornecimento mundial de eletricidade até 2030.
Como muitos data centers, o Lincoln Laboratory Supercomputing Center (LLSC) do MIT registrou um aumento significativo no número de trabalhos de IA em execução em seu hardware. À medida que o consumo de energia começou a aumentar, os cientistas da computação do LLSC começaram a explorar opções para otimizar a execução do trabalho para obter maior eficiência.
A equipe do LLSC está desenvolvendo técnicas para reduzir a energia, treinar com eficiência e tornar o uso de energia transparente em seus data centers. Essas técnicas variam desde mudanças simples, mas eficazes, como hardware de limitação de energia, até a adoção de novas ferramentas que podem interromper o treinamento de IA desde o início. Notavelmente, eles descobriram que essas técnicas têm um impacto mínimo no desempenho do modelo.
“A computação com consciência de energia não é realmente uma área de pesquisa porque todos estão retendo seus dados”, diz Vijay Gadepally, funcionário sênior do LLSC que lidera esforços de pesquisa com consciência energética. “Alguém tem que começar e esperamos que outros o sigam.”
Eles estudaram os efeitos do limite de energia para limitar a quantidade de consumo de energia das unidades de processamento gráfico (GPUs), que são hardware que consome muita energia. Limitar a potência ajudou os pesquisadores a reduzir o consumo de energia em cerca de 12% a 15%, dependendo do modelo.
Quando se trata de limitar o poder, a desvantagem é que isso pode aumentar o tempo da tarefa. De acordo com Gadepally, as GPUs levarão cerca de 3% mais tempo para concluir uma tarefa. No entanto, esse aumento muitas vezes é quase imperceptível, uma vez que os modelos normalmente são treinados durante dias ou até meses.
Em um experimento, a equipe treinou o popular modelo de linguagem BERT e limitou a potência da GPU a 150 watts. Isto resultou num aumento de duas horas no tempo de treino, de 80 para 82 horas, mas poupou o equivalente a uma semana de energia para uma família nos EUA.
Além disso, a equipe desenvolveu um software que permite aos proprietários de data centers definir limites em seus sistemas ou trabalho por trabalho. Depois de implementar restrições de energia, as GPUs nos supercomputadores LLSC funcionaram cerca de 30 graus Fahrenheit mais frios e a uma temperatura mais consistente, reduzindo o estresse no sistema de resfriamento. Isto também pode aumentar potencialmente a confiabilidade e a vida útil do hardware, reduzindo assim as emissões de carbono incorporadas ao centro criadas pela fabricação de equipamentos.
Os pesquisadores do LLSC também encontraram outra maneira de reduzir o consumo de energia. Ao treinar modelos de IA, os desenvolvedores geralmente buscam melhorar a precisão. No entanto, descobrir os parâmetros corretos a serem usados pode ser uma tarefa desafiadora que envolve testar milhares de configurações. Este processo, conhecido como otimização de hiperparâmetros, foi identificado pelos pesquisadores do LLSC como uma área onde o desperdício de energia pode ser reduzido.
Assim, a equipe desenvolveu um modelo que prevê o provável desempenho das configurações, e os modelos de baixo desempenho foram interrompidos precocemente. Eles descobriram que essa parada antecipada resulta em uma redução de 80% na energia usada no treinamento do modelo.
A equipe do LLSC deseja ajudar outros data centers a aplicar essas intervenções e fornecer aos usuários opções conscientes em termos de energia. A aplicação dessas técnicas pode reduzir significativamente o consumo e o custo de energia.