Lançado o programa "Chinese Benchmark Assessment of Scientific Reasoning (SuperCLUE-Science)

Notícias sobre IAPublicado há 9 meses Círculo de compartilhamento de IA

13.3K 00

Com o rápido desenvolvimento da tecnologia de IA, a capacidade dos modelos de linguagem de grande porte de raciocinar sobre tópicos científicos difíceis em nível de pós-graduação tornou-se um tópico importante de pesquisa. Tomando a OpenAI como exemplo, seu novo modelo OpenAI o1, lançado oficialmente no início de dezembro, demonstra uma forteraciocínio científicoO o1 teve um desempenho surpreendente no GPQA-Diamond, uma referência para testar a experiência em nível de pós-graduação em física, química e biologia, demonstrando habilidades comparáveis às de um PhD humano.

Para avaliar de forma mais eficaz o desempenho de modelos grandes nesse sentido, especialmente considerando que um grande número de modelos grandes com excelentes recursos de raciocínio científico está surgindo na China, lançamos o benchmark abrangente chinês SuperCLUE com base no acúmulo deEm Raciocínio científicoSuperCLUE-Science (uma avaliação de referência de alfabetização). Este benchmark se concentra principalmente na avaliação dos grandes modelos chineses naPerguntas sobre ciências em nível de pós-graduaçãono desempenho do modelo, com o objetivo de fornecer uma referência mais direcionada para o desenvolvimento futuro do modelo.

SuperCLUE-Ciênciasistema de avaliação

Observação: O sistema de avaliação específico está sujeito ao relatório de avaliação oficialmente divulgado.

1. características

(1)abrangência

Os padrões de referência abrangem uma ampla gama de domínios de conhecimento e complexidade, e são desenvolvidos em detalhes para os subdomínios das matérias secundárias nas três categorias de Física, Química e Biologia, para garantir uma avaliação abrangente da capacidade de raciocínio científico do Grande Modelo Chinês.

(2) Objetivosufixo que forma um substantivo a partir de um adjetivo, correspondendo a -ness ou -ity

A Avaliação de Referência de Raciocínio Científico valoriza muito a objetividade das perguntas científicas, o que é garantido pela construção do conjunto de avaliação na forma de pares de perguntas e respostas bem elaborados, que são objetivos e solucionáveis. No processo de avaliação, damos atenção especial à precisão das respostas dadas pelo Grande Modelo.

(3) Desafiossufixo que forma um substantivo a partir de um adjetivo, correspondendo a -ness ou -ity

Para medir o desempenho do modelo em cenários complexos e perguntas científicas difíceis, apresentamos perguntas científicas desafiadoras de nível de pós-graduação em termos da amplitude do conhecimento abrangido pelas perguntas e da profundidade do raciocínio exigido para as perguntas.

2. missão de avaliação

Para avaliar com mais eficácia a capacidade do Grande Modelo de raciocinar cientificamente em nível de pós-graduação, medimos tópicos em três disciplinas - Física, Química e Biologia - e expandimos em detalhes os subdomínios secundários em suas respectivas disciplinas para garantir uma cobertura abrangente dos diferentes domínios científicos. Os subdomínios secundários são exibidos abaixo:

fisioterapiaMecânica quântica, física de partículas de alta energia, física geral, astrofísica, eletromagnetismo e fotônica, mecânica relativística, mecânica estatística, física da matéria condensada, óptica e acústica
quimioterapiaQuímica Orgânica, Química Geral, Química Inorgânica, Química Analítica, Físico-Química
organismosBiologia Molecular, Genética

A seguir, apresentaremos brevemente algumas das categorias e mostraremos exemplos correspondentes.

2.1 Mecânica quântica

A mecânica quântica é um campo de ponta da física que explora o comportamento exótico das partículas no mundo microscópico. O campo envolve conceitos como dualidade onda-partícula, superposição quântica e emaranhamento, e exige uma compreensão profunda do princípio da incerteza e da evolução dos estados quânticos. A física quântica não apenas desafia os conceitos tradicionais da física, mas também promove o desenvolvimento de tecnologias como a computação quântica e a comunicação quântica, tornando-a uma área fundamental para a exploração científica e a inovação tecnológica.

Exemplo:

2.2 Física de partículas energéticas

A física de partículas de alta energia é o estudo das partículas mais fundamentais do universo e suas interações. O campo abrange a tecnologia de aceleradores, detectores de partículas e análise de dados, e tem como objetivo revelar a composição fundamental da matéria e a origem do universo. Os experimentos de física de partículas de alta energia, como o Grande Colisor de Hádrons (LHC), estão na vanguarda das descobertas científicas, exigindo medições precisas e análises de dados complexas, além de promover uma atitude científica rigorosa e colaboração interdisciplinar.

Exemplo:

2.3 Química orgânica

A química orgânica é a ciência da estrutura, das propriedades e dos métodos sintéticos dos compostos que contêm carbono. O campo lida com as propriedades de ligação tetravalente dos átomos de carbono, estereoquímica e mecanismos de reação, e explora os mistérios dos produtos naturais e polímeros sintéticos. A química orgânica não apenas enriquece a base teórica para o desenvolvimento de medicamentos e a ciência dos materiais, mas também desenvolve a capacidade de analisar estruturas e projetar sínteses, tornando-a uma parte altamente criativa do campo da química.

Exemplo:

2.4 Físico-química

A físico-química é um campo interdisciplinar na interseção da química e da física que estuda a base física dos fenômenos químicos. O campo abrange a termodinâmica, a química quântica, a eletroquímica e a cinética, e aplica as leis da física para explicar a natureza das reações químicas. A química física não só aprofunda a compreensão da ligação química e das taxas de reação, mas também promove o desenvolvimento da catálise, da espectroscopia e de outras tecnologias, além de ser uma ponte entre a teoria e o experimento.

Exemplo:

2.5 Genética

A genética é o estudo dos padrões de transmissão da informação genética e da variação nos organismos vivos. O campo envolve a estrutura gênica, a recombinação genética, a epigenética e a genética populacional, e revela a origem e a evolução da diversidade biológica. A genética não só fornece a base teórica para o diagnóstico e o tratamento de doenças genéticas na medicina, mas também promove o desenvolvimento da criação agrícola e da conservação ecológica, além de ser um campo central nas ciências da vida. Exemplo:

2.6 Biologia molecular

A biologia molecular é a ciência da estrutura e da função das macromoléculas biológicas. Esse campo abrange a replicação, a transcrição e a tradução do DNA, o dobramento e as interações das proteínas e revela os mecanismos moleculares das atividades vitais. A biologia molecular não apenas aprofunda a compreensão da regulação da expressão gênica, mas também promove o desenvolvimento de campos emergentes, como edição de genes e bioinformática, e é uma ferramenta fundamental para explorar os mistérios da vida nas ciências biológicas. Exemplo:

3. exemplos de métodos de medição e avaliações

Métodos e ideias de pontuação

1. ideias para métodos de pontuaçãoReferindo-se ao método de pontuação do benchmark de avaliação do trabalho em equipe SuperCLUE-CoT "Chained Reasoning", um conjunto de avaliação dedicado é construído para avaliar cada dimensão e fornecer feedback detalhado.

2. construção do conjunto de medidas

O processo de criação de um banco de questões chinês para raciocínio científico: 1. coleta e organização de conhecimentos especializados em nível de pós-graduação em química, física e biologia ---> 2. elaboração de questões chinesas de raciocínio científico ---> 3. testes ---> 4. revisão e finalização do banco de questões chinês para raciocínio científico, com referência a padrões nacionais e internacionais, e construção de um conjunto dedicado de avaliações para cada uma das dimensões.

3. critérios de pontuação

Todo o processo de avaliação foi dividido em várias etapas principais: primeiro, o material do banco de perguntas foi preparado para garantir a precisão e a integridade dos dados de entrada. Em seguida, as respostas do Big Model foram analisadas com base em critérios de avaliação detalhados. Por fim, são aplicadas regras de marcação rigorosas para pontuar as respostas do grande modelo. Esse processo fornece perguntas correspondentes aocalibração manualpostar respostas de referência para avaliação objetiva.

Os critérios de avaliação abrangem duas dimensões importantes para o exame do raciocínio científico, incluindoo processo de solução de um problemaresponder cantandoresposta finalque garante uma avaliação abrangente da capacidade de raciocínio do modelo em questões científicas de dificuldade de nível de graduação.

As regras de pontuação são quantitativas por natureza, com o objetivo de garantir a natureza científica e justa do processo de avaliação. Também introduzimos um sistema de pontuação automatizado de última geração, que reduz bastante a intervenção manual e aumenta ainda mais a eficiência e a consistência da avaliação.

Os critérios de avaliação de cada dimensão são claramente definidos na tarefa de avaliação. Ao combinar o processo de avaliação, os critérios e as regras de pontuação, as perguntas são inseridas no grande modelo para avaliação e os resultados da avaliação de cada dimensão são finalmente obtidos. Essa abordagem sistemática não só aumenta a precisão da avaliação, mas também fornece um forte suporte de dados para o aprimoramento do grande modelo.

4.Critérios de avaliação

Para avaliar a qualidade da resposta de cada macromodelo na tarefa de avaliação, adotamos dois critérios de avaliação.

No sistema de avaliação para perguntas de raciocínio científico, a rubrica principal se concentra principalmente no"A resposta final"A precisão e a exatidão do"O processo de solução de problemas"O rigor das etapas de raciocínio na consideração. Considerando os cenários em que o Big Language Model é usado, nós o personalizamos e otimizamos profundamente para o tipo específico de pergunta de raciocínio científico para atender aos seus desafios exclusivos.

As questões de raciocínio científico são diferentes das questões convencionais de ciências, pois abordam a profundidade acadêmica do nível de pós-graduação, não apenas abrangendo uma ampla gama de conhecimentos, mas também sendo mais complexas no raciocínio lógico, forçando os solucionadores a pensar fora do modo de pensamento tradicional e adotar estratégias de pensamento inovadoras. Portanto, ao avaliar essas questões, não apenas controlamos rigorosamente a precisão da resposta final, mas também damos grande importância à clareza e à racionalidade da lógica de raciocínio no processo de resolução das questões e nos esforçamos para medir a capacidade de raciocínio científico dos solucionadores de forma abrangente e aprofundada.

Com esses dois critérios de avaliação, esperamos poder avaliar de forma abrangente e objetiva o desempenho de cada um dos grandes modelos nas tarefas de medição e fornecer feedback valioso para aprimoramento e otimização adicionais.

Exemplo de uma avaliação

Usamos diferentes modelos grandes do país e do exterior para responder às perguntas que preparamos e usamos o o1 Avaliação automatizada das respostas ao Big Model. Abaixo estão exemplos de avaliação para dois subdomínios disciplinares diferentes, respectivamente:

Exemplo 1 Genética

[Pergunta]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

[Resposta de referência]: 38.25%

[Modelo (Modelo doméstico grande 1) Resposta]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布 Pontuação do supermodelo::

Avalie essa resposta da seguinte forma:PERGUNTAS E FEEDBACK PARA MELHORIA: O assistente de IA não foi lógico ao resolver a pergunta e não considerou adequadamente o efeito da frequência de recombinação nos gametas, resultando em uma resposta final incorreta. As etapas da solução não estavam completas e claras o suficiente.
o processo de solução de um problema(5 pontos)::
Processo de solução com base no Critério 1; o processo de solução do assistente de IA não é logicamente rigoroso, tem etapas incompletas e não considera corretamente o efeito dos eventos de recombinação nas proporções dos genótipos; pontuação de 1 com base no Critério 1.
Pontuação:1/5
resposta final(5 pontos)::
Resposta final com base no Critério 2; a resposta final do AI Assistant não corresponde à resposta de referência e é respondida incorretamente; pontuação 0 com base no Critério 2.
Pontuação:0/5Pontuação combinada = ( 1 + 0 ) / 2 = 0,5Em conjunto.IAPontuação combinada das respostas do assistente 0.5 Pontos.

[Modelo (Overseas Large Model 1) Resposta]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

Pontuação do supermodelo::

Avalie essa resposta da seguinte forma:As respostas do assistente de IA mostraram alguma lógica na solução das perguntas, mas houve um erro no cálculo da probabilidade-chave, resultando em uma resposta final que não correspondia à resposta de referência. A compreensão e a aplicação da relação entre a frequência de recombinação e a probabilidade do genótipo na genética precisam ser reforçadas.
Processo de solução (5 pontos)::
Com base no Critério 1 ; as etapas da solução do assistente de IA estão parcialmente corretas, ele é capaz de identificar as frequências de recombinação e tenta calcular a probabilidade dos tipos de gametas, mas há um erro no cálculo da probabilidade de recombinação combinada e da probabilidade do genótipo final, o que leva a um resultado impreciso; com base nas pontuações do Critério 1, por exemplo, 3 pontos.
Pontuação:3/5
Resposta final (5 pontos)::
Com base na do Critério 2, a resposta final fornecida pelo Assistente de IA, 12,31%, não corresponde à resposta de referência, 38,25%, e, portanto, é pontuada como 0.
Pontuação: 0/5Pontuação combinada = ( 3 + 0 ) / 2 = 1,50
Em conjunto.IAPontuação combinada das respostas do assistente 1.50 Pontos.

# Exemplo 2 Química Orgânica

[Pergunta]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

[Resposta de referência]: 0,082 ~ 0,093

[Resposta do modelo (doméstico grande modelo 2)]: 「科学推理」中文基准测评（SuperCLUE-Science）方案发布

Pontuação do supermodelo::

Avalie essa resposta da seguinte forma:O assistente de IA presumiu incorretamente que a concentração de íons hidroxila permaneceu constante durante a solução, resultando em um cálculo final que não corresponde à resposta de referência. A solução não aplica corretamente a fórmula de cinética de reação secundária, o que afeta a precisão da resposta.
Começa a pontuação e a avaliação:
Processo de solução (5 pontos)::
A solução do assistente de IA não foi rigorosa do ponto de vista lógico, com etapas incompletas e soluções inválidas. Simplificou incorretamente a reação secundária para uma reação primária e não aplicou corretamente a fórmula cinética secundária; pontuação baseada no critério 1, por exemplo, 1 ponto.
Pontuação: 1/5
Resposta final (5 pontos)::
A resposta final fornecida pelo assistente de IA, 0,045 M, não corresponde ao intervalo de respostas de referência de 0,082 ~ 0,093 M. A resposta está incorreta; a pontuação baseada no critério 2, por exemplo, é de 0 pontos.
Pontuação: 0/5Pontuação combinada = ( 1 + 0 ) / 2 = 0,50
Em conjunto.IAPontuação combinada das respostas do assistente 0.50 Pontos.

[Modelo (Overseas Large Model 2) Resposta]:

Pontuação do supermodelo::

Avalie essa resposta da seguinte forma:O assistente de IA tem uma lógica clara e etapas completas para resolver o problema, o que basicamente atende aos requisitos da pergunta e a resposta final é precisa. No entanto, há uma pequena imprecisão na apresentação do intervalo de valores na etapa final, e recomenda-se que os detalhes do cálculo sejam verificados mais detalhadamente para garantir a precisão total.
Começa a pontuação e a avaliação:
Processo de solução (5 pontos)::
A solução do assistente de IA é lógica, com etapas completas e claras, consistente com a análise cinética das reações de substituição nucleofílica secundária e usa uma metodologia eficaz e apropriada. Pontuação baseada no Critério 1, 4 pontos.
Pontuação: 4/5
Resposta final (5 pontos)::
A resposta final fornecida pelo assistente de IA está dentro do intervalo da resposta de referência, atende aos requisitos da pergunta e é a resposta correta. Pontuação baseada no Critério 2, 5 pontos.
Pontuação: 5/5Pontuação combinada = ( 4 + 5 ) / 2 = 4,50
Em conjunto.IAA Resposta do Assistente tem uma pontuação composta de 4.50 Pontos.

Convite para avaliação

planejamento de tempo

1. início do registro: 2 de janeiro

2. confirmação do modelo de avaliação do participante: 10 de janeiro

3. implementação da medida e estatísticas de resultados: 10 a 15 de janeiro

4. divulgação dos resultados da avaliação: 16 de janeiroprocesso de avaliação

1. aplicativo de correio eletrônico

2. comunicação de intenções

3. processo de confirmação de participação e acordo

4. fornecer API e documentação do modelo

5. obter um relatório de avaliação

# Solicite uma avaliação emTítulo do e-mail: SuperCLUE-Science Chinese Scientific Reasoning Assessment Application, 发送contact@superclue.ai请使用单位邮箱, o conteúdo do e-mail inclui: informações da unidade, perfil do modelo grande, pessoa e departamento de contato, informações de contato

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

A Kunlun Weaver lança o primeiro modelo de grande vídeo de código aberto da China para peças curtas com IA

Notícias sobre IA

7 meses atrás

018.2K

智谱 AI 发布开源 GLM 模型家族：MIT 许可、Z.ai 平台与高速推理服务同步亮相

Smart Spectrum AI lança família de modelos GLM de código aberto: licenciamento do MIT, plataforma Z.ai e serviço de inferência de alta velocidade revelados

Notícias sobre IA

5 meses atrás

016.4K

Domínio AI.com Redireciona para chat.deepseek.com

Notícias sobre IA

7 meses atrás

031.4K

As 5 principais plataformas de inferência de IA que usam uma versão completa do DeepSeek-R1 gratuitamente

Notícias sobre IA

8 meses atrás

022.4K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Lançado o programa "Chinese Benchmark Assessment of Scientific Reasoning (SuperCLUE-Science)

SuperCLUE-Ciênciasistema de avaliação

1. características

2. missão de avaliação

3. exemplos de métodos de medição e avaliações

Convite para avaliação

SiliconCloud x FastGPT: permitindo que 200.000 usuários criem uma base de conhecimento de IA exclusiva

O ano de 2025 será a era dos agentes de IA e a IA substituirá as plataformas sem código?

Artigos relacionados

A Kunlun Weaver lança o primeiro modelo de grande vídeo de código aberto da China para peças curtas com IA

Smart Spectrum AI lança família de modelos GLM de código aberto: licenciamento do MIT, plataforma Z.ai e serviço de inferência de alta velocidade revelados

Domínio AI.com Redireciona para chat.deepseek.com

As 5 principais plataformas de inferência de IA que usam uma versão completa do DeepSeek-R1 gratuitamente

Sem comentários

Últimas coleções

Artigos mais recentes

Lançado o programa "Chinese Benchmark Assessment of Scientific Reasoning (SuperCLUE-Science)

SuperCLUE-Ciênciasistema de avaliação

1. características

2. missão de avaliação

3. exemplos de métodos de medição e avaliações

Convite para avaliação

SiliconCloud x FastGPT: permitindo que 200.000 usuários criem uma base de conhecimento de IA exclusiva

O ano de 2025 será a era dos agentes de IA e a IA substituirá as plataformas sem código?

Artigos relacionados

A Kunlun Weaver lança o primeiro modelo de grande vídeo de código aberto da China para peças curtas com IA

Smart Spectrum AI lança família de modelos GLM de código aberto: licenciamento do MIT, plataforma Z.ai e serviço de inferência de alta velocidade revelados

Domínio AI.com Redireciona para chat.deepseek.com

As 5 principais plataformas de inferência de IA que usam uma versão completa do DeepSeek-R1 gratuitamente

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes