Resumo: Elon Musk e a xAI acabaram de divulgar os pesos e a arquitetura de seu enorme modelo de linguagem paramétrica 314B Grok-1 sob a licença de código aberto Apache 2.0.
Lançamos os pesos e a arquitetura do nosso modelo Grok-1 de mistura de especialistas com 314 bilhões de parâmetros. Esse é o ponto de verificação do modelo básico original do Grok-1 na fase de pré-treinamento de outubro de 2023 e não foi ajustado para um aplicativo específico. O modelo foi treinado em grandes quantidades de dados de texto, usando pilhas de treinamento personalizadas em JAX e Rust. Os pesos e a arquitetura são liberados sob a licença Apache 2.0. Para usar o modelo, você pode encontrá-lo no diretório github.com/xai-org/grok Exibir instruções sobre.
Detalhes.
O Grok-1 é um modelo de especialista híbrido em que somente os pesos 25% estão ativos para qualquer token de entrada para um cálculo mais eficiente.
Os modelos lançados são pontos de verificação não treinados a partir de outubro de 2023 e não foram ajustados para nenhuma tarefa específica.
A xAI fornece um guia para os desenvolvedores começarem em seu repositório GitHub e publicou o modelo no Hugging Face.
Importância: ao abrir o código-fonte de um dos maiores LLMs do mundo, a xAI está se adiantando ao que Musk vê como uma batalha moral contra o modelo fechado da OpenAI. Embora os recursos do Grok ainda não tenham rompido nenhuma nova barreira, a mudança é outra grande vitória para o desenvolvimento colaborativo e transparente da IA.