A América Latina passou a contar com um modelo de linguagem de grande porte (LLM) próprio e de código aberto. Batizado de Latam-GPT, o sistema foi anunciado nesta terça-feira (10) e desenvolvido pelo Centro Nacional de Inteligência Artificial do Chile (CENIA), em parceria com mais de 60 organizações de 15 países da região, incluindo o Brasil. Diferentemente das principais ferramentas do mercado, treinadas majoritariamente em inglês, o novo modelo foi alimentado com cerca de 300 bilhões de tokens em espanhol e português, o equivalente a aproximadamente 230 bilhões de palavras.
O conteúdo utilizado no treinamento passou por um processo rigoroso de curadoria, com a remoção de materiais nocivos, como desinformação e conteúdos discriminatórios, além da anonimização de dados pessoais. A base contempla temas variados, como humanidades, saúde, políticas públicas e culturas indígenas. O projeto utiliza a arquitetura Llama 3.1, com 70 bilhões de parâmetros, e contou com infraestrutura de nuvem da Amazon Web Services (AWS).
Com licença aberta, o Latam-GPT foi concebido como um bem público para democratizar o acesso à tecnologia e permitir sua aplicação em áreas estratégicas. Universidades, governos e startups poderão adaptá-lo livremente para desenvolver soluções em educação, empreendedorismo e gestão pública. A iniciativa surgiu diante da escassez de conteúdo em idiomas latinos nos grandes bancos de dados globais, estimativas do repositório Common Crawl indicam que textos em espanhol representam cerca de 4% do total, enquanto o português responde por apenas 2%.
Copyright © 2021-2026. Onjornal - Todos os direitos reservados.