Ajuste fino de modelos grandes

Total de 28 artigos
One Shot LoRA:快速生成视频 LoRA 模型的全能平台

One Shot LoRA: a plataforma completa para geração rápida de modelos de LoRA em vídeo

Introdução geral O One Shot LoRA é uma plataforma voltada para a geração de modelos de LoRA de vídeo de alta qualidade a partir de vídeos. Os usuários podem treinar modelos de LoRA de boutique de forma rápida e fácil a partir de vídeos sem fazer login ou armazenar dados privados. A plataforma é compatível com Hunyua...
6 meses atrás
03.8K
AI Toolkit by Ostris:Stable Diffusion与FLUX.1模型训练工具包

Kit de ferramentas de IA da Ostris: Difusão estável com o kit de ferramentas de treinamento de modelos FLUX.1

Introdução geral O AI Toolkit da Ostris é um conjunto de ferramentas de IA de código aberto voltado para o suporte aos modelos Stable Diffusion e FLUX.1 para tarefas de treinamento e geração de imagens. O conjunto de ferramentas foi criado e é mantido pelo desenvolvedor Ostris, tor...
5 meses atrás
03.7K
LLaMA Factory:高效微调百余种开源大模型,轻松实现模型定制

LLaMA Factory: ajuste fino eficiente de mais de cem macromodelos de código aberto, fácil personalização de modelos

Introdução geral O LLaMA-Factory é uma estrutura de ajuste fino unificada e eficiente que oferece suporte à personalização flexível e ao treinamento eficiente de mais de 100 modelos de idiomas grandes (LLMs). Com a interface da Web integrada do LLaMA Board, os usuários não precisam escrever código para concluir a modelagem...
9 meses atrás
03.4K
Petals:分布式共享GPU运行和微调大语言模型,像BitTorrent网络一样共享GPU资源

Petals: execução distribuída de GPU compartilhada e ajuste fino de grandes modelos de linguagem, compartilhando recursos de GPU como uma rede BitTorrent

Introdução geral O Petals é um projeto de código aberto desenvolvido pelo BigScience Workshop para executar modelos de linguagem grandes (LLMs) por meio de uma abordagem de computação distribuída. Os usuários podem executar LLMs em casa usando GPUs de nível de consumidor ou o Google Co...
9 meses atrás
03.4K
Kiln:简单的LLM模型微调和数据合成工具,0代码基础微调自己的小模型

Kiln: ferramenta simples de síntese de dados e ajuste fino de modelos LLM, base de código 0 para ajustar seus próprios minimodelos!

Introdução abrangente O Kiln é uma ferramenta de código aberto que se concentra no ajuste fino de LLMs (Large Language Models), na geração de dados sintéticos e na colaboração de conjuntos de dados. Ele fornece aplicativos de desktop intuitivos com suporte para sistemas Windows, MacOS e Linux, permitindo que os usuários obtenham uma implementação de código zero de modelos de l...
6 meses atrás
03.3K
WeClone:用微信聊天记录和语音训练数字分身

WeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChat

Introdução abrangente O WeClone é um projeto de código aberto que usa registros de bate-papo e mensagens de voz do WeChat, combinados com grandes modelos de linguagem e tecnologia de síntese de fala, para permitir que os usuários criem doppelgangers digitais personalizados. O projeto pode analisar os hábitos de bate-papo do usuário para treinar o modelo, mas também um pequeno número de amostras de voz para gerar sons realistas...
4 meses atrás
03.3K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: ajuste fino de modelos grandes para aprimorar o raciocínio e a tomada de decisões de corpos inteligentes

Introdução geral O OpenManus-RL é um projeto de código aberto desenvolvido pelo UIUC-Ulab em conjunto com a equipe OpenManus da comunidade MetaGPT, hospedado no GitHub. O projeto aprimora a modelagem de linguagem em larga escala (LLM) por meio de técnicas de aprendizagem por reforço (RL)...
5 meses atrás
03.2K
Unsloth:高效微调和训练大语言模型的开源工具

Unsloth: uma ferramenta de código aberto para ajuste fino e treinamento eficientes de modelos de linguagem grandes

Introdução abrangente O Unsloth é um projeto de código aberto criado para fornecer ferramentas eficientes para o ajuste fino e o treinamento de grandes modelos de linguagem (LLMs). O projeto oferece suporte a vários modelos conhecidos, incluindo Llama, Mistral, Phi e Gemma.
6 meses atrás
03.2K
Second Me:本地训练拥有个人记忆和习惯的AI分身

Second Me: doppelgangers de IA treinados localmente com memórias e hábitos pessoais

O Second Me é um projeto de código aberto desenvolvido pela equipe do Mindverse que permite criar uma IA em seu computador que atua como um "sósia digital", aprendendo seus padrões e hábitos de fala por meio de suas palavras e memórias e tornando-se uma pessoa inteligente que entende suas...
5 meses atrás
03.2K
Forefront AI:机器学习模型调优平台|AI聊天助手

Forefront AI: Plataforma de ajuste de modelos de aprendizado de máquina | Assistente de bate-papo com IA

Introdução abrangente O Forefront AI é uma plataforma avançada de IA que se concentra na personalização e na implementação de modelos de código aberto. Os usuários podem selecionar e ajustar uma variedade de modelos avançados de IA, como GPT-4, GPT-3.5, etc., para atender a diferentes requisitos de tarefas. A plataforma suporta o upload de modelos de PD...
9 meses atrás
03K
LlamaEdge:本地运行和微调LLM的最快捷方式

LlamaEdge: a maneira mais rápida de executar e ajustar o LLM localmente!

Introdução geral O LlamaEdge é um projeto de código aberto desenvolvido para simplificar o processo de execução e ajuste fino de grandes modelos de linguagem (LLMs) em dispositivos locais ou de borda. O projeto oferece suporte à família de modelos Llama2 e fornece serviços de API compatíveis com OpenAI que permitem aos usuários criar e executar facilmente...
7 meses atrás
02.9K
Bakery:轻松微调和货币化开源AI模型

Bakery: ajuste e monetize facilmente modelos de IA de código aberto

Introdução geral O Bakery é uma plataforma projetada para startups de IA, engenheiros de aprendizado de máquina e pesquisadores para fornecer serviços simples e eficientes de ajuste fino e monetização de modelos de IA. Os usuários podem acessar conjuntos de dados orientados pela comunidade por meio do Bakery, criar ou carregar seus próprios conjuntos de dados, ajustar modelos...
7 meses atrás
02.9K
NVIDIA Garak:检测LLM漏洞的开源工具,确保生成式AI的安全性

NVIDIA Garak: ferramenta de código aberto para detectar vulnerabilidades LLM e proteger a IA generativa

Introdução abrangente O NVIDIA Garak é uma ferramenta de código aberto projetada especificamente para detectar vulnerabilidades em modelos de linguagem ampla (LLMs). Ela verifica o modelo quanto a vários pontos fracos, como ilusões, vazamento de dados, injeção de dicas, geração de mensagens de erro, geração de conteúdo prejudicial etc., por meio de sondagem estática, dinâmica e adaptativa...
9 meses atrás
02.9K
中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集

Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês

Introdução abrangente O conjunto de dados chinês de destilação DeepSeek-R1 é um conjunto de dados chinês de código aberto que contém 110 mil dados projetados para dar suporte à pesquisa de aprendizado de máquina e processamento de linguagem natural. O conjunto de dados foi lançado pela equipe de NLP de Cong Liu e contém não apenas dados matemáticos, mas também um grande número de tipos gerais...
6 meses atrás
02.9K
Easy Dataset:创建大模型微调数据集的简易工具

Easy Dataset: uma ferramenta fácil para criar grandes conjuntos de dados com ajuste fino de modelos

Introdução abrangente O Easy Dataset é uma ferramenta de código aberto projetada especificamente para o ajuste fino de modelos grandes (LLMs), hospedada no GitHub. Ela oferece uma interface fácil de usar que permite que os usuários carreguem arquivos, segmentem automaticamente o conteúdo, gerem perguntas e respostas e, por fim, produzam um modelo adequado...
5 meses atrás
02.9K
MM-EUREKA:探索视觉推理的多模态强化学习工具

MM-EUREKA: uma ferramenta de aprendizagem por reforço multimodal para explorar o raciocínio visual

Introdução abrangente O MM-EUREKA é um projeto de código aberto desenvolvido pelo Shanghai Artificial Intelligence Laboratory, pela Shanghai Jiao Tong University e por outras partes. Ele amplia os recursos de raciocínio textual para cenários multimodais por meio de técnicas de aprendizagem por reforço baseadas em regras para ajudar os modelos a processar informações de imagem e texto. O núcleo dessa ferramenta...
5 meses atrás
02.8K
Maestro:简化主流开源视觉语言模型微调过程的工具

Maestro: uma ferramenta para simplificar o processo de ajuste fino dos modelos das principais linguagens visuais de código aberto

Introdução abrangente O Maestro é uma ferramenta desenvolvida pela Roboflow para simplificar e acelerar o processo de ajuste fino de modelos multimodais, para que todos possam treinar seus próprios macromodelos visuais. Ele fornece receitas prontas para o ajuste fino de modelos populares de linguagem visual (VLMs), como o F...
6 meses atrás
02.8K
Open-Reasoner-Zero:开源大规模推理强化学习训练平台

Open-Reasoner-Zero: plataforma de treinamento de aprendizado por reforço de raciocínio em larga escala de código aberto

Introdução geral O Open-Reasoner-Zero é um projeto de código aberto voltado para a pesquisa de aprendizagem por reforço (RL), desenvolvido pela equipe do Open-Reasoner-Zero no GitHub. Seu objetivo é fornecer treinamento eficiente, dimensionável e fácil de usar ...
6 meses atrás
02.7K
X-R1:在普通设备中低成本训练0.5B模型

X-R1: Treinamento de baixo custo de modelos de 0,5B em dispositivos comuns

Introdução geral O X-R1 é uma estrutura de aprendizagem por reforço de código aberto no GitHub pela equipe dhcode-cpp, com o objetivo de fornecer aos desenvolvedores uma ferramenta eficiente e de baixo custo para modelos de treinamento com base na aprendizagem por reforço de ponta a ponta. O projeto é apoiado pelo DeepSeek...
5 meses atrás
02.6K
Optexity:用人类演示训练AI执行网页操作的开源项目

Optexity: um projeto de código aberto para treinar a IA para realizar ações na Web com demonstrações humanas

Introdução geral O Optexity é um projeto de código aberto no GitHub, desenvolvido pela equipe do Optexity. Sua essência é usar dados de demonstração humana para treinar a IA para concluir tarefas de computador, especialmente operações de páginas da Web. O projeto contém três bibliotecas de código: Compute...
4 meses atrás
02.6K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: ajuste fino de modelos de linguagem usando gráficos de conhecimento para gerar dados sintéticos

Introdução abrangente O GraphGen é uma estrutura de código aberto desenvolvida pelo OpenScienceLab, um laboratório de IA em Xangai, hospedado no GitHub, com foco na otimização do ajuste fino supervisionado de modelos de linguagem grande (LLMs), orientando a geração de dados sintéticos por meio de gráficos de conhecimento. Ele foi desenvolvido a partir de ...
3 meses atrás
02.3K
MiniMind-V:1小时训练26M参数视觉语言模型

MiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetros

Introdução geral O MiniMind-V é um projeto de código aberto, hospedado no GitHub, criado para ajudar os usuários a treinar um modelo de linguagem visual (VLM) leve com apenas 26 milhões de parâmetros em menos de uma hora. Ele se baseia no modelo de linguagem MiniMind, com novos recursos visuais...
4 meses atrás
02.3K
ColossalAI:提供高效大规模AI模型训练解决方案

ColossalAI: fornecendo soluções eficientes de treinamento de modelos de IA em grande escala

Introdução abrangente O ColossalAI é uma plataforma de código aberto desenvolvida pela HPC-AI Technologies, com o objetivo de fornecer uma solução eficiente e econômica para treinamento e inferência de modelos de IA em grande escala. Ao oferecer suporte a várias estratégias paralelas, gerenciamento de memória heterogênea e treinamento de precisão mista, o ColossalAI...
6 meses atrás
02.2K