Com apenas 14 bilhões (14B) de parâmetros, o Phi-4 demonstra desempenho comparável ou até mesmo superior a alguns modelos de maior escala por meio de métodos de treinamento inovadores e dados de alta qualidade. Este documento descreve em detalhes a arquitetura, os recursos, a metodologia de treinamento e o desempenho do Phi-4 em aplicativos e benchmarks do mundo real.
https://github.com/xinyuwei-david/david-share.git
I. Análise de indicadores para medir a capacidade
Meça três questões comparando o1 e Phi-4
Primeira pergunta:
phi-4
o1
Segunda pergunta:
Phi-4.
o1:
Terceira pergunta:
Phi-4
o1.
Pergunte qual é a média de cinco números pares consecutivos cuja soma é conhecida como 90, e responderemos passo a passo a seguir.
Etapa 1: Configuração das incógnitas
Sejam esses cinco números pares consecutivos:
Primeiro número par: ( n - 4 )
Segundo número par: ( n - 2 )
Terceiro número par: ( n )
Quarto número par: ( n + 2 )
Quinto número par: ( n + 4 )
(Como os números pares diferem entre si por 2, os números pares vizinhos podem ser expressos da seguinte forma)
Etapa 2: Somando as equações
De acordo com o título, a soma dos cinco números é 90:
[
(n - 4) + (n - 2) + n + (n + 2) + (n + 4) = 90
]
Etapa 3: Simplificando as equações
Combinação de semelhante com semelhante:
[
5n = 90
]
Etapa 4: Resolva para n
[
n = frac{90}{5} = 18
]
Etapa 5: Encontre cinco números pares
Primeiro número par: ( 18 - 4 = 14 )
Segundo número par: ( 18 - 2 = 16 )
Terceiro número par: ( 18 )
Quarto número par: ( 18 + 2 = 20 )
Quinto número par: ( 18 + 4 = 22 )
Etapa 6: Cálculo das médias
A média é igual à soma dividida pelo número:
[
text{mean} = frac{14 + 16 + 18 + 20 + 22}{5} = frac{90}{5} = 18
]
Respostas:
A média desses cinco números pares consecutivos é 18.
Quando você olha dessa forma, o raciocínio de Phi-4 ainda é bom.
II. Phi-4 arquitetura do modelo
1. arquitetura do decodificador baseado em transformador
O Phi-4 usa um sistema baseado em transformador Somente decodificador Essa arquitetura é semelhante à família de modelos GPT. Essa arquitetura utiliza o Mecanismo de Auto-Atenção para capturar com eficácia as dependências de longo prazo em sequências de texto e se destaca em tarefas de geração de linguagem natural.
2. tamanho do parâmetro e número de camadas
- Número total de parâmetros: 14 bilhões (14B) Parâmetros.
- Número de andares do modelo: 40
3. comprimento do contexto
- Comprimento do contexto inicial: 4,096 Token.
- Extensão do treinamento de médio prazo: Na fase intermediária do treinamento, o comprimento do contexto do Phi-4 foi estendido para 16,000 Token (16K), que melhora a capacidade do modelo de lidar com textos longos.
4. glossário e lexer
- Separadores: Usando o Divisor de tiktokenA empresa oferece suporte a vários idiomas e tem um melhor efeito de divisão de palavras.
- Tamanho do glossário: 100,352Isso inclui alguns tokens reservados não utilizados.
III Mecanismos de atenção e codificação de posição
1. mecanismos de atenção global
O Phi-4 usa Mecanismo de atenção plenaou seja, a autoatenção é computada para toda a sequência de contextos. Isso contrasta com o modelo predecessor, Phi-3-medium, que usa 2.048 Token da janela deslizante, enquanto o Phi-4 executa o cálculo da atenção global diretamente nos contextos de 4.096 tokens (inicial) e 16.000 tokens (estendido), melhorando a capacidade do modelo de capturar dependências de longo alcance.
2. codificação de posição rotativa (RoPE)
Para suportar contextos mais longos, o Phi-4 foi adaptado no meio do treinamento para Embeddings de posição rotativa (RoPE) da frequência básica:
- Ajuste da frequência básica: Aumentar a frequência básica do RoPE para 250,000para acomodar o comprimento do contexto de 16K.
- Função: O RoPE ajuda o modelo a manter a eficácia da codificação posicional em sequências longas, permitindo que o modelo mantenha um bom desempenho em textos mais longos.
IV Estratégias e métodos de treinamento
1. o conceito de priorização da qualidade dos dados
A estratégia de treinamento do Phi-4 se baseia em Qualidade dos dados no núcleo. Ao contrário de outros modelos que são pré-treinados usando principalmente dados orgânicos da Internet (por exemplo, conteúdo da Web, código etc.), o Phi-4 introduz estrategicamente ao longo do processo de treinamento um Dados sintéticos.
2. geração e aplicação de dados sintéticos
Dados sintéticos desempenhou um papel fundamental no pré-treinamento e no treinamento intermediário do Phi-4:
- Várias técnicas de geração de dados:
- Prompting multiagente: A diversidade de dados é enriquecida pelo uso de vários modelos de linguagem ou agentes para gerar dados em conjunto.
- Fluxos de trabalho de auto-revisão: Depois que o modelo gera o resultado inicial, ele realiza a autoavaliação e a correção para melhorar iterativamente a qualidade do resultado.
- Reversão de instruções: A geração de instruções de entrada correspondentes a partir de saídas existentes aumenta a capacidade do modelo de entender e gerar instruções.
- Vantagens dos dados sintéticos:
- Aprendizado estruturado e progressivo: Os dados sintéticos permitem o controle preciso da dificuldade e do conteúdo, orientando gradualmente o modelo a aprender habilidades complexas de raciocínio e solução de problemas.
- Melhorar a eficiência do treinamento: A geração de dados sintéticos pode fornecer dados de treinamento direcionados para os pontos fracos do modelo.
- Evite a contaminação dos dados: Como os dados sintéticos são gerados, evita-se o risco de que os dados de treinamento contenham o conteúdo do conjunto de análise.
3. triagem fina e filtragem de dados orgânicos
Além dos dados sintéticos, o Phi-4 se concentra em selecionar e filtrar cuidadosamente dados de alta qualidade de várias fontes Dados orgânicos::
- Fontes de dados: Inclui conteúdo da Web, livros, bibliotecas de códigos, artigos acadêmicos e muito mais.
- Filtragem de dados:
- Remova o conteúdo de baixa qualidade: Use métodos automatizados e manuais para filtrar conteúdo sem sentido, incorreto, duplicado ou prejudicial.
- Evitar a contaminação dos dados: Um algoritmo híbrido de n-grama (13-grama e 7-grama) foi usado para desduplicação e descontaminação para garantir que os dados de treinamento não contivessem conteúdo do conjunto de revisões.
4. estratégia de combinação de dados
O Phi-4 foi otimizado na composição dos dados de treinamento com as seguintes proporções:
- Dados sintéticos: tomar posse de 40%.
- Reescrita na Web: tomar posse de 15%No caso de uma nova amostra de treinamento, ela é reescrita a partir de conteúdo da Web de alta qualidade para gerar uma nova amostra de treinamento.
- Dados orgânicos da Web: tomar posse de 15%O conteúdo da Web é uma seleção de conteúdo valioso da Web.
- Dados de código: tomar posse de 20%incluindo a base de código pública e os dados de síntese de código gerados.
- Aquisições direcionadas: tomar posse de 10%incluindo artigos acadêmicos, livros profissionais e outros conteúdos de alto valor.
5. processo de treinamento em vários estágios
Fase de pré-treinamento:
- Objetivo: Modelagem da compreensão linguística subjacente e das habilidades geradoras.
- Volume de dados: Marque uma consulta 10 trilhões (10T) Token.
Fase de treinamento de médio prazo:
- Objetivo: Ampliação do comprimento do contexto para melhorar o processamento de textos longos.
- Volume de dados: 250 bilhões (250B) Token.
Fase pós-treinamento (ajuste fino):
- Supervised Fine Tuning (SFT): O ajuste fino usando dados de alta qualidade e de vários domínios melhora a capacidade do modelo de seguir instruções e a qualidade das respostas.
- Otimização de preferências diretas (DPO): Utilizar Pesquisa de Token Pivotal (PTS) e outros métodos para otimizar ainda mais o resultado do modelo.
V. Técnicas de treinamento inovadoras
1. Pivotal Token Search (PTS)
Metodologia PTS é uma grande inovação no processo de treinamento do Phi-4:
- Princípio: Ao identificar os principais tokens que têm um impacto significativo na exatidão da resposta durante o processo de geração, o modelo é direcionado para otimizar a previsão desses tokens.
- Vantagens:
- Melhorar a eficiência do treinamento: Concentrar sua otimização nas partes que têm o maior impacto nos resultados é duas vezes mais eficaz.
- Desempenho aprimorado do modelo: Ajuda o modelo a fazer as escolhas certas nos principais pontos de decisão e melhora a qualidade geral do resultado.
2. otimização aprimorada de preferências diretas (DPO)
- Método DPO: A otimização é realizada diretamente usando dados de preferência para tornar o resultado do modelo mais consistente com as preferências humanas.
- Pontos de inovação:
- Combinado com PTS: A introdução de pares de dados de treinamento gerados por PTS no DPO melhora a otimização.
- Avaliação de indicadores: Meça a otimização com mais precisão, avaliando o desempenho do modelo no Token principal.
VI. recursos e vantagens do modelo
1. excelente desempenho
- Modelos pequenos, grandes recursos: Embora a escala de parâmetros seja apenas 14BNo entanto, o Phi-4 tem um bom desempenho em vários benchmarks de análise, especialmente em tarefas de raciocínio e resolução de problemas.
2. excelentes habilidades de raciocínio
- Resolução de problemas de matemática e ciências: existir GPQAeMATEMÁTICA Em testes de benchmark como este, o Phi-4 tem resultados ainda melhores do que o modelo do professor GPT-4o.
3. longos recursos de processamento contextual
- Extensão do comprimento do contexto: Ao expandir a duração do contexto no meio do treinamento para 16,000 Token, o Phi-4 é capaz de lidar com textos longos e dependências de longa distância com mais eficiência.
4. suporte multilíngue
- Cobertura de vários idiomas: Os dados de treinamento consistiram em Alemão, espanhol, francês, português, italiano, hindi, japonês e muitos outros idiomas.
- Competência interlinguística: É excelente em tarefas como tradução e questionários entre idiomas.
5. segurança e conformidade
- Princípios de IA responsável: O processo de desenvolvimento segue rigorosamente os Princípios de IA Responsável da Microsoft, com foco na segurança e na ética do modelo.
- Descontaminação de dados e proteção da privacidade: Estratégias rigorosas de desduplicação e filtragem de dados são usadas para evitar que conteúdos confidenciais sejam incluídos nos dados de treinamento.
VII - Benchmarks e desempenho
1. benchmarking externo
O Phi-4 demonstra desempenho líder em vários benchmarks de análise disponíveis publicamente:
- MMLU (Multitasking Language Understanding): Obteve excelentes resultados em testes complexos de compreensão de múltiplas tarefas.
- GPQA (Questionário STEM de nível de pós-graduação): se destacou no difícil questionário STEM, com pontuação mais alta do que alguns dos modelos em escala maior.
- MATH (competição de matemática): Na resolução de problemas matemáticos, o Phi-4 demonstra sólidos recursos de raciocínio e computação.
- HumanEval / HumanEval+ (geração de código): Nas tarefas de geração e compreensão de código, o Phi-4 supera os modelos de seu tamanho e até se aproxima de modelos maiores.
2. suíte de avaliação interna (PhiBench)
Para obter informações sobre os recursos e as deficiências do modelo, a equipe desenvolveu um conjunto de avaliação interna especializada PhiBench::
- A tarefa de diversificação: Inclui depuração de código, conclusão de código, raciocínio matemático e identificação de erros.
- Orientação sobre otimização de modelos: Ao analisar os resultados do PhiBench, a equipe conseguiu direcionar melhorias para o modelo.
VIII. segurança e responsabilidade
1. estratégia de alinhamento de segurança rigorosa
O desenvolvimento do Phi-4 segue o modelo da Microsoft Princípios para uma IA responsávelO foco é a segurança e a ética do modelo durante o treinamento e o ajuste fino:
- Proteção contra conteúdo nocivo: Reduza a probabilidade de o modelo gerar conteúdo inadequado incluindo dados de ajuste fino de segurança na fase pós-treinamento.
- Teste de equipe vermelha e avaliação automatizada: Foram realizados testes extensivos com a equipe vermelha e avaliações de segurança automatizadas, abrangendo dezenas de categorias de risco em potencial.
2. descontaminação de dados e prevenção de sobreajuste
- Estratégias aprimoradas de descontaminação de dados: Um algoritmo híbrido de 13 e 7 gramas é usado para remover qualquer possível sobreposição dos dados de treinamento com os benchmarks de revisão e evitar o ajuste excessivo do modelo.
IX. recursos e tempo de treinamento
1. tempo de treinamento
Embora o relatório oficial não especifique o tempo total de treinamento para o Phi-4, considere:
- Escala do modelo: Parâmetros 14B.
- Volume de dados de treinamento: Token 10T na fase de pré-treinamento, Token 250B no meio do treinamento.
Pode-se supor que todo o processo de treinamento levou um tempo considerável.
2. consumo de recursos da GPU
GPUs | 1920 H100-80G |
Tempo de treinamento | 21 dias |
Dados de treinamento | 9,8T tokens |
X. Aplicativos e limitações
1. cenários de aplicativos
- Sistema de perguntas e respostas: O Phi-4 tem bom desempenho em tarefas complexas de quizzing e é adequado para todos os tipos de aplicativos de quizzing inteligente.
- Geração e compreensão de códigos: Excelente em tarefas de programação e pode ser usado em cenários como tutoria de código, geração automática e depuração.
- Tradução e processamento multilíngue: Suporte multilíngue para serviços de idiomas globalizados.
2) Limitações potenciais
- Limite de conhecimento: O conhecimento do modelo se limita aos dados de treinamento e pode não saber nada sobre os eventos que ocorrem após o treinamento.
- Desafio de sequência longa: Embora o comprimento do contexto seja estendido para 16K, ainda pode haver desafios ao lidar com sequências mais longas.
- Controle de riscos: Apesar das rigorosas medidas de segurança, os modelos ainda podem estar sujeitos a ataques adversários ou à geração inadvertida de conteúdo inadequado.
O sucesso do Phi-4 demonstra a importância da qualidade dos dados e da estratégia de treinamento no desenvolvimento de modelos de linguagem em grande escala. Por meio de métodos inovadores de geração de dados sintéticos, estratégias cuidadosas de combinação de dados de treinamento e técnicas avançadas de treinamento, o Phi-4 alcança excelente desempenho, mantendo um pequeno tamanho de parâmetro:
- As habilidades de raciocínio são excelentes: Excelente nas áreas de matemática, ciências e programação.
- Processamento de textos longos: O comprimento estendido do contexto dá ao modelo uma vantagem em tarefas de processamento de textos longos.
- Segurança e responsabilidade: A adesão estrita aos princípios de IA responsável garante que os modelos sejam seguros e éticos.
O Phi-4 estabelece uma nova referência no desenvolvimento de modelos quantitativos paramétricos pequenos, demonstrando que, ao se concentrar na qualidade dos dados e nas estratégias de treinamento, é possível obter um desempenho superior mesmo em escalas de parâmetros menores.
Referências: /https://www.microsoft.com/en-us/research/uploads/prod/2024/12/P4TechReport.pdf