Imagem do Google Gêmeos Geração de flash 2.0
Recentemente, o Google tem API Gemini Um novo modelo experimental de incorporação de texto foi introduzido no gemini-embedding-exp-03-07
[1]O modelo é treinado com base no modelo Gemini. O modelo é treinado com base no modelo Gemini, herdando a profunda compreensão que o Gemini tem da linguagem e dos contextos sutis, e é aplicável a uma ampla gama de cenários. É importante observar que esse novo modelo supera o modelo lançado anteriormente pelo Google incorporação de texto-004
e superou os gráficos do Multilingual Text Embedding Benchmark (MTEB), além de fornecer entradas mais longas token Novos recursos, como comprimento.
comentários
Considerando que já existem alguns modelos de incorporação de código aberto no mercado, como o multilingual-e5-large-instruct, embora possam ser ligeiramente inferiores ao novo modelo da Gemini em termos de desempenho, o modelo de código aberto ainda pode ser competitivo em determinados cenários, como o processamento de pequenos blocos de texto e aplicativos sensíveis ao custo. Portanto, a aceitação futura do novo modelo da Gemini no mercado dependerá, em última instância, do fato de sua estratégia de preços e restrições de uso atenderem às necessidades dos desenvolvedores, além de seu desempenho superior.
Modelo abrangente e líder de incorporação de texto
O Google afirma que o novo modelo foi especialmente treinado para oferecer uma versatilidade extraordinária, com excelente desempenho em finanças, ciências, direito, pesquisa e muitas outras áreas, e pode ser usado diretamente, sem a necessidade de um ajuste fino extensivo para tarefas específicas.
Na classificação de MTEBs multilíngues.gemini-embedding-exp-03-07
A classificação do MTEB é uma referência importante para a comparação de modelos, pois fornece uma avaliação abrangente do desempenho dos modelos de incorporação de texto em uma variedade de tarefas, como recuperação e classificação.
Por que escolher a incorporação de texto?
Geração aprimorada a partir da criação de pesquisa inteligente (RAG) e sistemas de recomendação, para classificação de texto, a capacidade dos modelos de linguagem em larga escala (LLMs) de entender o significado por trás do texto é fundamental. As técnicas de incorporação geralmente podem criar sistemas mais eficientes, reduzindo o custo e a latência e fornecendo resultados melhores do que os sistemas de correspondência de palavras-chave.
As técnicas de incorporação capturam a semântica e o contexto por meio da representação numérica dos dados. Dados com semântica semelhante têm vetores de incorporação mais próximos. As técnicas de incorporação suportam uma variedade de aplicativos, incluindo:
- Recuperação eficiente: Localização de documentos relevantes em grandes bancos de dados, como recuperação de documentos jurídicos ou pesquisa empresarial, comparando a consulta com os vetores de incorporação dos documentos.
- Geração Aumentada de Recuperação (RAG): Melhorar a qualidade e a relevância do texto gerado, recuperando e integrando informações relevantes ao contexto do modelo.
- Agrupamento e classificação: Agrupar textos semelhantes para identificar tendências e temas nos dados.
- Classificação: Classificação automática com base no conteúdo do texto, por exemplo, análise de sentimentos ou detecção de spam.
- Similaridade de texto: Identifique conteúdo duplicado e realize tarefas como a eliminação da duplicação de páginas da Web ou a detecção de plágio.
Para saber mais sobre incorporação e casos de uso comuns de IA, você pode consultar o Documentação da API Gemini.
Experimente agora o Gemini Text Embedding
Os desenvolvedores agora podem usar esse novo modelo experimental de incorporação de texto por meio da API Gemini. Ele é semelhante ao modelo conteúdo_incorporado
Compatibilidade de interface.
from google import genai
cliente = genai.Client(api_key="GEMINI_API_KEY")
result = client.models.embed_content(
model="gemini-embedding-exp-03-07",
contents="Como funciona a dobra alfa?" ,
)
print(result.embeddings)
Além de melhorar a qualidade em todos os aspectos dagemini-embedding-exp-03-07
Ele também tem as seguintes características:
- Limite de entrada de token de 8K: Em comparação com os modelos anteriores, o Google aprimorou o comprimento do contexto para permitir a incorporação de pedaços maiores de texto, código ou outros dados.
- 3072 saída dimensional: vetores de incorporação de alta dimensão com quase 4 vezes mais tokens do que o modelo de incorporação anterior.
- Aprendizado de Representação Matryoshka (MRL): A MRL permite que os desenvolvedores trunquem o vetor original de 3072 dimensões para reduzir os custos de armazenamento. Em termos simples, a tecnologia MRL permite que os usuários sacrifiquem uma parte da precisão em troca de economia de espaço de armazenamento.
- Suporte estendido a idiomas: O número de idiomas suportados dobrou para mais de 100.
- Modelo unificado: O modelo supera em qualidade os modelos do Google lançados anteriormente, específicos para tarefas, multilíngues, em inglês simples e específicos para códigos.
Embora atualmente esteja em uma fase experimental com capacidade limitada, esta versão oferece aos desenvolvedores a oportunidade de explorar os primeiros gemini-embedding-exp-03-07
Oportunidades de recursos. Como acontece com todos os modelos experimentais, ele está sujeito a alterações, e o Google afirma que está trabalhando para obter uma versão estável e geralmente disponível nos próximos meses.
O Google está incentivando os desenvolvedores a tornar seus produtos mais acessíveis por meio de Formulário de feedback incorporado Forneça feedback.
Alguns usuários observaram que o modelo é gratuito durante a visualização, mas há restriçõeslimite de velocidade-5 solicitações por minuto, 100 solicitações por dia. Os desenvolvedores podem acionar facilmente esses limites ao testar modelos. Alguns usuários expressaram a esperança de que o Google aumente esses limites em breve.
Na discussão no Reddit, muitos usuários expressaram entusiasmo com o lançamento do novo modelo, descrevendo-o como "um negócio maior do que as pessoas imaginam". Um usuário comentou: "vetores de incorporação fp32 de dimensão 3k são enormes. Aposto que você poderia construir um decodificador bem razoável com essa quantidade de dados ...... Se esse modelo fosse barato, eu provavelmente o usaria com mais frequência do que um modelo de linguagem completo e em grande escala. Normalmente, a extração de recursos semânticos é o que você realmente quer."
Outro usuário observou que esse modelo "não tem muita concorrência" no domínio multilíngue, acrescentando que ele provavelmente é mais adequado para blocos maiores de texto devido à limitação da taxa e à dimensionalidade da incorporação.
[1]: no Vertex AI, o mesmo modelo é passado pelotext-embedding-large-exp-03-07
é fornecida. A nomenclatura será consistente no momento do lançamento oficial.