ATLAS: Google partilha coordenadas para facilitar treino de IA em línguas além do inglês

Mais de 700 exercícios de treino depois, a Google compilou informação num estudo que é o maior do género até à data e que vai ajudar a treinar modelos de inteligência artificial noutras línguas que não o inglês.

Os investigadores da Google DeepMind apresentaram o ATLAS, um conjunto de leis de escala para modelos linguísticos multilingues. Naquele que é o maior estudo público sobre o tema alguma vez divulgado, como diz a Google, alinham-se orientações sobre como combinar dados para treinar modelos de forma mais eficaz, em idiomas que não o inglês.

“Mais de 50% dos utilizadores de modelos de IA falam idiomas que não o inglês, mas as leis de escalabilidade acessíveis ao público estão predominantemente focadas no idioma inglês. Esse desequilíbrio cria uma lacuna crítica na investigação”, sublinha a Google.

Com este trabalho, os investigadores dizem que é feita uma “abordagem simples e prática para determinar o tamanho ideal do modelo, o volume de dados e as combinações de idiomas para o treino”. Tudo isto já existia, mas para ambientes monolingues. O ATLAS fornece essas recomendações para ambientes multilíngues mais complexos.

Com este “ATLAS: leis de escala de transferência adaptativa para pré-treino multilíngue, ajuste fino e descodificação da maldição da multilinguidade” ficam disponíveis dados que “otimizam especificamente o desempenho num idioma de destino (por exemplo, catalão) aproveitando dados de vários idiomas diferentes”, explica-se.

Os resultados aqui compilados assentam em 774 exercícios de treino em modelos com 10 milhões a 8 mil milhões de parâmetros, utilizando dados multilingues de mais de 400 idiomas, e avaliam o desempenho em 48 idiomas-alvo.

Para manter o desempenho e aumentar o número de idiomas nos modelos de treino é preciso fazer crescer o modelo e o volume de dados de treino, um dos grandes desafios do processo. O ATLAS dá mais informação sobre isto e mostra em que medida a escalabilidade é afetada, tendo em conta as línguas combinadas.

Para isso, recorre a uma matriz de transferência entre idiomas, usada para identificar que idiomas são melhores para treinar juntos. Usa uma lei de escala que fornece orientação sobre como expandir com eficiência o tamanho do modelo e os dados, à medida que o número de idiomas suportados aumenta. E, detalha regras para decidir quando é preferível pré-treinar um modelo do zero em vez de ajustá-lo a partir de um ponto de verificação multilíngue.

“Esta abordagem inovadora permite que a lei aprenda o quanto cada fonte realmente ajuda ou atrapalha a língua-alvo, uma capacidade que as leis anteriores não suportavam”, assegura a Google.

Compartilhe!