Allgemeine Einführung
Ragas ist ein Werkzeug, das speziell für die Bewertung und Optimierung von Retrieval Augmented Generation (RAG) Systemen entwickelt wurde. Es bietet eine umfassende Reihe von Bewertungsmetriken, indem es die Beziehung zwischen Anfrage, Retrieval-Kontext und generierten Antworten analysiert. Ragas hilft Entwicklern, die Leistung von RAG-Systemen zu bewerten und zu optimieren, um sicherzustellen, dass die generierten Antworten korrekt und relevant sind und auf den abgerufenen Inhalten basieren. Egal, ob Sie ein neues System entwickeln oder ein bestehendes optimieren, Ragas bietet Ihnen leistungsstarke Unterstützung.
Funktionsliste
- Bewertung der WiedergabetreueMisst die Übereinstimmung der generierten Antwort mit dem abgerufenen Kontext.
- Bewertung der Relevanz der AntwortenBewertung der Relevanz der generierten Antwort für die ursprüngliche Anfrage.
- Bewertung der kontextuellen RelevanzMessen Sie, wie gut die gefundenen Informationen auf das Problem passen.
- Bewertung des kontextbezogenen ErinnerungsvermögensBewertung, ob der gefundene Kontext alle Informationen enthält, die zur Beantwortung der Frage erforderlich sind.
- Bewertung der kontextuellen GenauigkeitMisst die Qualität der Anordnung der abgerufenen relevanten Kontexte in den Ergebnissen.
Hilfe verwenden
Einbauverfahren
- Installation über PyPI::
pip install ragas
- Installation von der Quelle aus::
pip install git+https://github.com/explodinggradients/ragas
Schnellstart
- Importieren der erforderlichen Module::
from ragas import SingleTurnSample
from ragas.metrics import AspectCritic
- Vorbereiten der Testdaten::
test_data = {
"user_input": "summarise given text\nThe company reported an 8% rise in Q3 2024, driven by strong performance in the Asian market. Sales in this region have significantly contributed to the overall growth. Analysts attribute this success to strategic marketing and product localization. The positive trend in the Asian market is expected to continue into the next quarter.",
"response": "The company experienced an 8% increase in Q3 2024, largely due to effective marketing strategies and product adaptation, with expectations of continued growth in the coming quarter."
}
- Bewertung des RAG-Systems::
evaluator_llm = LangchainLLMWrapper(ChatOpenAI(model="gpt-4o"))
metric = AspectCritic(name="summary_accuracy", llm=evaluator_llm, definition="Verify if the summary is accurate.")
await metric.single_turn_ascore(SingleTurnSample(**test_data))
Detaillierte Funktionsabläufe
- Bewertung der Wiedergabetreue::
- Anhand der von Ragas zur Verfügung gestellten Treuemetriken werden die generierten Antworten auf ihre Treue zum abgerufenen Kontext hin bewertet.
- Die Ergebnisse der Zuverlässigkeitsbewertung werden durch den Aufruf der entsprechenden Bewertungsfunktionen ermittelt und analysiert.
- Bewertung der Relevanz der Antworten::
- Mit Hilfe der Antwortrelevanzmetrik von Ragas wird der Grad der Relevanz der generierten Antworten für die ursprüngliche Anfrage bewertet.
- Passen Sie die Bewertung der Relevanz der generierten Antworten an, indem Sie die Parameter für die Relevanzbewertung konfigurieren.
- Bewertung der kontextuellen Relevanz::
- Verwenden Sie die kontextbezogenen Relevanzmetriken von Ragas, um zu messen, wie gut die abgerufenen Informationen auf das Problem passen.
- Holen Sie sich das Ergebnis der Kontextrelevanzbewertung, indem Sie die Relevanzbewertungsfunktion aufrufen.
- Bewertung des kontextbezogenen Erinnerungsvermögens::
- Verwenden Sie die Ragas-Metrik für die Kontexterinnerung, um zu beurteilen, ob der abgerufene Kontext alle für die Beantwortung der Frage erforderlichen Informationen enthält.
- Stellen Sie sicher, dass der gefundene Kontext die für die Frage erforderlichen Informationen vollständig abdeckt, indem Sie die Parameter für die Bewertung des Abrufs festlegen.
- Bewertung der kontextuellen Genauigkeit::
- Verwenden Sie die kontextbezogenen Genauigkeitsmetriken von Ragas, um die Qualität der Anordnung der abgerufenen relevanten Kontexte in den Ergebnissen zu messen.
- Optimieren Sie die Rangfolge der Suchergebnisse, indem Sie die Parameter für die Genauigkeitsbewertung konfigurieren.
Ragas Bewertung QA Notizen
QA-Rückrufe enthalten im Allgemeinen zwei Komponenten:
1) Retriever - Ruft die wichtigsten Informationen ab, die zur Beantwortung einer Anfrage benötigt werden.
2) Generator - Verwenden Sie die abgerufenen Informationen, um Antworten zu generieren.
Die Bewertung der Genauigkeit der Qualitätssicherung war schon immer ein großes Thema.ROUGE(Ein Paket zur automatischen Auswertung von ZusammenfassungenundBLAU(eine Methode zur automatischen Bewertung der maschinellen Übersetzung) ist weniger effektiv.
Derzeitige Methodik: referenzfreie Bewertung mit Hilfe eines leistungsstarken LLM, also ein näheres Gespräch über Ragas.
Ragas wurde entwickelt, um diese Einschränkungen bei der Verwendung von LLM zur Bewertung Ihrer QS-Pipeline zu beseitigen und gleichzeitig umsetzbare Metriken mit möglichst wenigen, kosteneffizienten und schneller kommentierten Daten zu liefern.
Ragas ist ein Framework, das Ihnen hilft, diese verschiedenen Aspekte Ihrer QA-Pipeline zu bewerten. Es bietet Ihnen eine Reihe von Metriken zur Bewertung verschiedener Aspekte Ihres QS-Systems.
Indikatoren zur Bewertung des Abrufs: bietet und Ihnen ein Maß für die Leistungsfähigkeit des Abrufsystems liefert.
kontext_relevanz
kontext_rückruf
Bewertung der erstellten Indikatoren: Geben Sie an, was die Illusion und was die Beantwortung der Frage betrifft.
Treue
antwort_relevanz
Treue
Messen Sie die sachliche Richtigkeit der generierten Antworten anhand des vorgegebenen Kontexts.
Dies geschieht in zwei Schritten.
Wenn eine Frage gestellt und eine Antwort generiert wird, verwendet Ragas zunächst LLM, um die Aussagen der generierten Antwort zu ermitteln. Daraus ergibt sich eine Liste von Aussagen, die wir auf ihre Gültigkeit hin überprüfen müssen. In Schritt 2 prüft Ragas anhand der Liste der Aussagen und des zurückgegebenen Kontexts mit LLM, ob die Aussagen durch den Kontext unterstützt werden. Die Anzahl der richtigen Aussagen wird addiert und durch die Gesamtzahl der Aussagen in der generierten Antwort geteilt, um die Punktzahl für das gegebene Beispiel zu erhalten.
Schritt eins:
Nach der ersten Aufforderung.
Given a question and answer, create one or more statements from answer.
question: Who was Albert Einstein and what is he best known for?
answer: He was a German-born theoretical physicist, widely acknowledged to be one of the greatest and most influential physicists of all time. He was best known for developing the theory of relativity, he also made important contributions to the development of the theory of quantum mechanics.
statements:
Albert Einstein was born in Germany.
Albert Einstein was best known for his theory of relativity.
question: Cadmium Chloride is slightly soluble in this chemical, it is also called what?
answer: alochol
statements:
Cadmium Chloride is slightly soluble in alcohol.
question: Were Shahul and Jithin of the same nationality?
answer: They were from different countries.
statements:
Shahul and Jithin were from different countries.
question:膳食分析是什么?
answer: 膳食分析是一种评估人们摄入的食物的方法,通过详细分析一周内所吃的食物,来确定人们摄入的营养素种类和数量。它可以揭示人们是否缺乏某些营养素,以及食物中是否存在一些对健康有害的物质,如糖、盐、咖啡因、酒精、食品添加剂和防腐剂。膳食分析可以提供关于脂肪、碳水化合物、蛋白质和热量的摄入量的评估。然而,膳食分析并不能全面考虑到食物中营养素含量的变异性、个人的营养素需求,以及营养素的吸收和利用情况。因此,它可能并不是评估个人的确切营养状况最准确的方法。
statements:
Ergebnis 1 erhalten:
['膳食分析是一种评估人们摄入的食物的方法。',
'膳食分析可以确定人们摄入的营养素种类和数量。',
'膳食分析可以揭示人们是否缺乏某些营养素。',
'膳食分析可以揭示食物中是否存在一些对健康有害的物质。',
'膳食分析可以提供关于脂肪、碳水化合物、蛋白质和热量的摄入量的评估。',
'膳食分析可能并不是评估个人的确切营养状况最准确的方法。']
Zweiter Schritt:
Nach der zweiten Aufforderung.
Prompt: Natural language inference
Consider the given context and following statements, then determine whether they are supported by the information present in the context.Provide a brief explanation for each statement before arriving at the verdict (Yes/No). Provide a final verdict for each statement in order at the end in the given format. Do not deviate from the specified format.
Context:
John is a student at XYZ University. He is pursuing a degree in Computer Science. He is enrolled in several courses this semester, including Data Structures, Algorithms, and Database Management. John is a diligent student and spends a significant amount of time studying and completing assignments. He often stays late in the library to work on his projects.
statements:
1. John is majoring in Biology.
2. John is taking a course on Artificial Intelligence.
3. John is a dedicated student.
4. John has a part-time job.
5. John is interested in computer programming.
Answer:
1. John is majoring in Biology.
Explanation: John's major is explicitly mentioned as Computer Science. There is no information suggesting he is majoring in Biology. Verdict: No.
2. John is taking a course on Artificial Intelligence.
Explanation: The context mentions the courses John is currently enrolled in, and Artificial Intelligence is not mentioned. Therefore, it cannot be deduced that John is taking a course on AI. Verdict: No.
3. John is a dedicated student.
Explanation: The prompt states that he spends a significant amount of time studying and completing assignments. Additionally, it mentions that he often stays late in the library to work on his projects, which implies dedication. Verdict: Yes.
4. John has a part-time job.
Explanation: There is no information given in the context about John having a part-time job. Therefore, it cannot be deduced that John has a part-time job. Verdict: No.
5. John is interested in computer programming.
Explanation: The context states that John is pursuing a degree in Computer Science, which implies an interest in computer programming. Verdict: Yes.
Final verdict for each statement in order: No. No. Yes. No. Yes.
context:
你想要达到什么样的健康程度?如果你想了解自己精神和身体的全部潜在能力,确定你的最佳营养需求是非常必要的。但是如果你的营养需求很特别,那么你该如何发现这一点呢?从1980年开始,我制定并完善了一套分析人体营养需求的体系,此体系建立在评估影响个人营养需求的主要因素的基础上。此体系已经在10万人当中进行了测试并得到了验证,现在已被世界各国的临床营养学家所应用。无数人已经从中获益,因此,我知道从这个体系中可以得到什么样的结果。这些结果包括:更敏锐的思维、更好的记忆力、更强的体力、更好的体重控制效果、降低胆固醇含量、使得病情好转。尽管多数被诊断为有病的人已经受益于个人健康计划,但这个健康计划是以预防为主要目标,而不是以治病为主的。如果你正在进行医药治疗,请确认这个营养补充方案与你接受的治疗措施是否能够很好地相容。影响你营养需求的因素,至少有8项因素会影响你的营养需求量。年龄、性别以及运动量都是很常见的影响因素,但污染、压力、基因遗传、你过去的健康状况,当然还有膳食所能提供的营养素以及反营养物质,却不是能够轻易了解的。但是所有的这些细节以及更多的因素,都必须纳入考虑当中。通过4种分析方法——膳食分析、生化分析、症状分析、生活方式分析,可以了解这些细节。膳食分析这种方式似乎是从容易着手的地方开始:搞清楚人们摄入的食物是什么,就能发现缺乏的营养素是什么。
但不幸的是,如果对一周内所吃的食物进行详细分析,并不能综合考虑到食物营养素含量的变异性、个人的营养素需求,或者营养素是否能被吸收、吸收后的营养素又是否能被有效地利用等情况。我见过许多人的饮食质量很高,却依然有维生素缺乏的症状。对其中绝大部分人来说,问题在于营养素吸收不良。这些可变因素,使得某些通过计算机进行的膳食分析不如设想的准确。膳食分析对于评估那些能影响到人们营养素需求的食物很有用处,比如糖、盐、咖啡、茶、酒精、食品添加剂和防腐剂。另一些因素,如脂肪、碳水化合物、蛋白质和热量的摄入量,也可由膳食分析进行评估。诸如头发矿物质分析与维生素血液分析这样的实验,可以提供关于体内生物化学状态的确切信息,也能让营养顾问了解你身体的确切营养状况。但并不是所有这些实验都能对规划你的营养方案提供有用的信息。为了让这些信息尽可能精确,任何关于维生素或矿物质的检测都必须反映出营养素在体内发挥作用的能力。例如,铁是构成血红细胞的必需元素,有助于体内氧的运输。通过测定细胞中铁的营养状况,可能会对你的铁需求有一个很好的估测。从另一方面来讲,维生素氏在血液中没有像铁那样的直接作用。它主要作用于大脑当中的化学物质5-羟色胺,或在甲基化反应中起作用,降低同型半胱氨酸含量。所以,仅仅测定血液中的维生素B6,并不能真实地反映你是否获得了充足的营养素供给以及体内的维生素B6是否运转正常。相比之下,检测同型半胱氨酸浓度等项目意义更大。如果你已经获得了充足的维生素、维生素B和叶酸,那么你的同型半胱氨酸浓度就很低,但假如同型半胱氨酸浓度很高,则表明你需要更多的其中一种或多种营养素。我们称这种测试方式为功能测试,因为这个测试能够精确地测定你体内生化反应的某项特殊功能是否运转正常。
statements:
1.膳食分析是一种评估人们摄入的食物的方法。
2.膳食分析可以确定人们摄入的营养素种类和数量。
3.膳食分析可以揭示人们是否缺乏某些营养素。
4.膳食分析可以揭示食物中是否存在一些对健康有害的物质。
5.膳食分析可以提供关于脂肪、碳水化合物、蛋白质和热量的摄入量的评估。
6.膳食分析可能并不是评估个人的确切营养状况最准确的方法。
Answer:
Ergebnis 2 erhalten:
1. 膳食分析是一种评估人们摄入的食物的方法.
explanation: the context mentions that dietary analysis is a method to understand what food people consume. verdict: yes.
2. 膳食分析可以确定人们摄入的营养素种类和数量.
explanation: the context mentions that dietary analysis can evaluate the intake of nutrients such as sugar, salt, coffee, tea, alcohol, food additives, and preservatives. it does not explicitly state that it can determine the types and quantities of nutrients consumed. verdict: no.
3. 膳食分析可以揭示人们是否缺乏某些营养素.
explanation: the context mentions that dietary analysis can be useful in assessing the intake of nutrients that can affect people's nutritional needs. this implies that it can reveal if someone is lacking certain nutrients. verdict: yes.
4. 膳食分析可以揭示食物中是否存在一些对健康有害的物质.
explanation: the context mentions that dietary analysis can be useful in evaluating the intake of substances that can affect people's nutritional needs, such as food additives and preservatives. this implies that it can reveal the presence of harmful substances in food. verdict: yes.
5. 膳食分析可以提供关于脂肪、碳水化合物、蛋白质和热量的摄入量的评估.
explanation: the context mentions that the intake of factors such as fat, carbohydrates, protein, and calories can be evaluated through dietary analysis. verdict: yes.
6. 膳食分析可能并不是评估个人的确切营养状况最准确的方法.
explanation: the context mentions that while dietary analysis can provide useful information, it may not be the most accurate method for assessing an individual's exact nutritional status. verdict: yes.
final verdict for each statement in order: yes. no. yes. yes. yes. yes.
Bodenfinal verdict for each statement in order:
anpeilenyes. no. yes. yes. yes. yes.
Zählen von Punkten:
output = "yes. no. yes. yes. yes. yes."
score = sum(0 if "yes" in answer else 1
for answer in output.strip().split(".")
if answer != ""
)
# score = 1 - score/len(statements)
socre = 1 - 1/6
# score = 0.8333333333333334
Das ist der Endstand für FAITHFULNESSD.
antwort_relevanz
Messen Sie die Relevanz und den Schwerpunkt der Antwort auf die Frage.
Für eine gegebene generierte Antwort verwendet Ragas LLM, um die möglichen Fragen zu finden, für die die generierte Antwort die Antwort sein wird, und berechnet die Ähnlichkeit mit der tatsächlichen Frage.
Nach den Antworten.
Generate question for the given answer.
Answer:
The PSLV-C56 mission is scheduled to be launched on Sunday, 30 July 2023 at 06:30 IST / 01:00 UTC. It will be launched from the Satish Dhawan Space Centre, Sriharikota, Andhra Pradesh, India
Question: When is the scheduled launch date and time for the PSLV-C56 mission, and where will it be launched from?
Answer:膳食分析是一种评估个人饮食中摄入的食物种类和数量的方法。通过对一周内所吃的食物进行详细分析,可以了解人们摄入的营养素种类和含量,从而发现可能存在的营养素缺乏或过量的情况。膳食分析对于评估食物中的营养素含量、摄入量以及一些影响营养需求的因素(如糖、盐、咖啡因、酒精等)是有用的。然而,膳食分析并不能综合考虑到个体的营养素需求、营养素吸收和利用的情况,因此并不是评估个人营养状况的唯一方法。
Question:
Erhalten:
[
"What is dietary analysis and how is it used to evaluate an individual's nutritional intake?",
"What is dietary analysis and how is it used to assess an individual's nutritional intake?",
"What is dietary analysis and how is it used to assess an individual's nutritional intake?"
]
Berechnen Sie dann die Ähnlichkeit zwischen [problem] und diesen drei Ergebnissen:
Prozess der Ähnlichkeitsberechnung: mittext-embedding-ada-002
Führen Sie die Vektorisierung durch und berechnen Sie anschließend die Kosinusähnlichkeit.
def calculate_similarity(
self: t.Self, question: str, generated_questions: list[str]
):
question_vec = np.asarray(self.embedding.embed_query(question)).reshape(1, -1)
gen_question_vec = np.asarray(
self.embedding.embed_documents(generated_questions)
)
norm = np.linalg.norm(gen_question_vec, axis=1) * np.linalg.norm(
question_vec, axis=1)
return (
np.dot(gen_question_vec, question_vec.T).reshape(-1,)/ norm
)
Erhalten:
[0.83663467 0.83484782 0.83484782]
Dann Durchschnitt:
answer_relevancy_score: 0.8354434364200779
kontext_relevanz
Messung des Signal-Rausch-Verhältnisses im abgerufenen Kontext. Bei einer Frage ruft Ragas LLM auf, um aus dem abgerufenen Kontext den zur Beantwortung der Frage erforderlichen Satz zu finden. Das Verhältnis zwischen den erforderlichen Sätzen und den gesamten Sätzen im Kontext liefert Ihnen eine Punktzahl.
Eingabe:
Task: Candidate sentence extraction.
Given the question and context, extract minimum number of sentences from context required to answer the question. If the context do not contain information required to answer the question return "No candidate sentences found".
question: Which equation is known as worlds most famous equation?
context:
Albert Einstein (14 March 1879 – 18 April 1955) was a German-born theoretical physicist,[5] widely ranked among the greatest and most influential scientists of all time. Best known for developing the theory of relativity, he also made important contributions to quantum mechanics, and was thus a central figure in the revolutionary reshaping of the scientific understanding of nature that modern physics accomplished in the first decades of the twentieth century.
His mass–energy equivalence formula E = mc2, which arises from relativity theory, has been called "the world's most famous equation".
sentences:His mass–energy equivalence formula E = mc2, which arises from relativity theory, has been called "the world's most famous equation".
question: Were Scott Derrickson and Ed Wood of the same nationality?
context :
Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer He lives in Los Angeles, California He is best known for directing horror films such as "Sinister", "The Exorcism of Emily Rose", and "Deliver Us From Evil", as well as the 2016 Marvel Cinematic Universe installment, "Doctor Strange"Tyler Bates is an American musician, music producer, and composer for films, television, and video games. Adam Collis is an American filmmaker and actor.Conrad Brooks is an American actor.Edward Davis Wood Jr. (October 10, 1924 – December 10, 1978) was an American filmmaker, actor, writer, producer, and director.
sentences:Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer. Edward Davis Wood Jr. (October 10, 1924 – December 10, 1978) was an American filmmaker, actor, writer, producer, and director.
question: How many were killed in the Tiananmen Square incident?
context:
Tiananmen Square incident, also called June Fourth incident or 6/4, series of protests and demonstrations in China in the spring of 1989 that culminated on the night of June 3–4 with a government crackdown on the demonstrators in Tiananmen Square in Beijing.
sentences: No candidate sentences found.
question:膳食分析是什么?
context:
你想要达到什么样的健康程度?如果你想了解自己精神和身体的全部潜在能力,确定你的最佳营养需求是非常必要的。但是如果你的营养需求很特别,那么你该如何发现这一点呢?从1980年开始,我制定并完善了一套分析人体营养需求的体系,此体系建立在评估影响个人营养需求的主要因素的基础上。此体系已经在10万人当中进行了测试并得到了验证,现在已被世界各国的临床营养学家所应用。无数人已经从中获益,因此,我知道从这个体系中可以得到什么样的结果。这些结果包括:更敏锐的思维、更好的记忆力、更强的体力、更好的体重控制效果、降低胆固醇含量、使得病情好转。尽管多数被诊断为有病的人已经受益于个人健康计划,但这个健康计划是以预防为主要目标,而不是以治病为主的。如果你正在进行医药治疗,请确认这个营养补充方案与你接受的治疗措施是否能够很好地相容。影响你营养需求的因素,至少有8项因素会影响你的营养需求量。年龄、性别以及运动量都是很常见的影响因素,但污染、压力、基因遗传、你过去的健康状况,当然还有膳食所能提供的营养素以及反营养物质,却不是能够轻易了解的。但是所有的这些细节以及更多的因素,都必须纳入考虑当中。通过4种分析方法——膳食分析、生化分析、症状分析、生活方式分析,可以了解这些细节。膳食分析这种方式似乎是从容易着手的地方开始:搞清楚人们摄入的食物是什么,就能发现缺乏的营养素是什么。
但不幸的是,如果对一周内所吃的食物进行详细分析,并不能综合考虑到食物营养素含量的变异性、个人的营养素需求,或者营养素是否能被吸收、吸收后的营养素又是否能被有效地利用等情况。我见过许多人的饮食质量很高,却依然有维生素缺乏的症状。对其中绝大部分人来说,问题在于营养素吸收不良。这些可变因素,使得某些通过计算机进行的膳食分析不如设想的准确。膳食分析对于评估那些能影响到人们营养素需求的食物很有用处,比如糖、盐、咖啡、茶、酒精、食品添加剂和防腐剂。另一些因素,如脂肪、碳水化合物、蛋白质和热量的摄入量,也可由膳食分析进行评估。诸如头发矿物质分析与维生素血液分析这样的实验,可以提供关于体内生物化学状态的确切信息,也能让营养顾问了解你身体的确切营养状况。但并不是所有这些实验都能对规划你的营养方案提供有用的信息。为了让这些信息尽可能精确,任何关于维生素或矿物质的检测都必须反映出营养素在体内发挥作用的能力。例如,铁是构成血红细胞的必需元素,有助于体内氧的运输。通过测定细胞中铁的营养状况,可能会对你的铁需求有一个很好的估测。从另一方面来讲,维生素氏在血液中没有像铁那样的直接作用。它主要作用于大脑当中的化学物质5-羟色胺,或在甲基化反应中起作用,降低同型半胱氨酸含量。所以,仅仅测定血液中的维生素B6,并不能真实地反映你是否获得了充足的营养素供给以及体内的维生素B6是否运转正常。相比之下,检测同型半胱氨酸浓度等项目意义更大。如果你已经获得了充足的维生素、维生素B和叶酸,那么你的同型半胱氨酸浓度就很低,但假如同型半胱氨酸浓度很高,则表明你需要更多的其中一种或多种营养素。我们称这种测试方式为功能测试,因为这个测试能够精确地测定你体内生化反应的某项特殊功能是否运转正常。
sentences:
Erhalten:
[
'膳食分析这种方式似乎是从容易着手的地方开始:搞清楚人们摄入的食物是什么,就能发现缺乏的营养素是什么。',
'膳食分析是从容易着手的地方开始:搞清楚人们摄入的食物是什么,就能发现缺乏的营养素是什么。'
]
Teilen Sie jedes Ergebnis auf, schlagen Sie es im Kontext nach und sehen Sie nach, wie viel Prozent der aufgeteilten Klauseln in jedem Ergebnis im Originaltext vorkommen overlap_scores.
Angenommen, wir erhalten[1.0, 1.0]
.
Kontext:
你想要达到什么样的健康程度?如果你想了解自己精神和身体的全部潜在能力,确定你的最佳营养需求是非常必要的。但是如果你的营养需求很特别,那么你该如何发现这一点呢?从1980年开始,我制定并完善了一套分析人体营养需求的体系,此体系建立在评估影响个人营养需求的主要因素的基础上。此体系已经在10万人当中进行了测试并得到了验证,现在已被世界各国的临床营养学家所应用。无数人已经从中获益,因此,我知道从这个体系中可以得到什么样的结果。这些结果包括:更敏锐的思维、更好的记忆力、更强的体力、更好的体重控制效果、降低胆固醇含量、使得病情好转。尽管多数被诊断为有病的人已经受益于个人健康计划,但这个健康计划是以预防为主要目标,而不是以治病为主的。如果你正在进行医药治疗,请确认这个营养补充方案与你接受的治疗措施是否能够很好地相容。影响你营养需求的因素,至少有8项因素会影响你的营养需求量。年龄、性别以及运动量都是很常见的影响因素,但污染、压力、基因遗传、你过去的健康状况,当然还有膳食所能提供的营养素以及反营养物质,却不是能够轻易了解的。但是所有的这些细节以及更多的因素,都必须纳入考虑当中。通过4种分析方法——膳食分析、生化分析、症状分析、生活方式分析,可以了解这些细节。膳食分析这种方式似乎是从容易着手的地方开始:搞清楚人们摄入的食物是什么,就能发现缺乏的营养素是什么。
但不幸的是,如果对一周内所吃的食物进行详细分析,并不能综合考虑到食物营养素含量的变异性、个人的营养素需求,或者营养素是否能被吸收、吸收后的营养素又是否能被有效地利用等情况。我见过许多人的饮食质量很高,却依然有维生素缺乏的症状。对其中绝大部分人来说,问题在于营养素吸收不良。这些可变因素,使得某些通过计算机进行的膳食分析不如设想的准确。膳食分析对于评估那些能影响到人们营养素需求的食物很有用处,比如糖、盐、咖啡、茶、酒精、食品添加剂和防腐剂。另一些因素,如脂肪、碳水化合物、蛋白质和热量的摄入量,也可由膳食分析进行评估。诸如头发矿物质分析与维生素血液分析这样的实验,可以提供关于体内生物化学状态的确切信息,也能让营养顾问了解你身体的确切营养状况。但并不是所有这些实验都能对规划你的营养方案提供有用的信息。为了让这些信息尽可能精确,任何关于维生素或矿物质的检测都必须反映出营养素在体内发挥作用的能力。例如,铁是构成血红细胞的必需元素,有助于体内氧的运输。通过测定细胞中铁的营养状况,可能会对你的铁需求有一个很好的估测。从另一方面来讲,维生素氏在血液中没有像铁那样的直接作用。它主要作用于大脑当中的化学物质5-羟色胺,或在甲基化反应中起作用,降低同型半胱氨酸含量。所以,仅仅测定血液中的维生素B6,并不能真实地反映你是否获得了充足的营养素供给以及体内的维生素B6是否运转正常。相比之下,检测同型半胱氨酸浓度等项目意义更大。如果你已经获得了充足的维生素、维生素B和叶酸,那么你的同型半胱氨酸浓度就很低,但假如同型半胱氨酸浓度很高,则表明你需要更多的其中一种或多种营养素。我们称这种测试方式为功能测试,因为这个测试能够精确地测定你体内生化反应的某项特殊功能是否运转正常。
Die Ähnlichkeit der beiden Antworten wird dann mit bert oder jaccard berechnet, um den agr_score zu erhalten.
Dann kann die Kontextrelevanz berechnet werden:
context_relevancy = agr_score * (overlap_scores的平均值)
kontext_rückruf
Bevor Sie dies testen können, müssen Sie eineGrund_Wahrheit.
Folgen Sie der Aufforderung:
Given a context, and an answer, analyze each sentence in the answer and classify if the sentence can be attributed to the given context or not.
Think in steps and reason bofore coming to conclusion.
context: Albert Einstein (14 March 1879 – 18 April 1955) was a German-born theoretical physicist,widely held to be one of the greatest and most influential scientists of all time. Best known for developing the theory of relativity, he also made important contributions to quantum mechanics, and was thus a central figure in the revolutionary reshaping of the scientific understanding of nature that modern physics accomplished in the first decades of the twentieth century. His mass–energy equivalence formula E = mc2, which arises from relativity theory, has been called "the world's most famous equation". He received the 1921 Nobel Prize in Physics "for his services to theoretical physics, and especially for his discovery of the law of the photoelectric effect", a pivotal step in the development of quantum theory. His work is also known for its influence on the philosophy of science. In a 1999 poll of 130 leading physicists worldwide by the British journal Physics World, Einstein was ranked the greatest physicist of all time. His intellectual achievements and originality have made Einstein synonymous with genius.
answer: Albert Einstein born in 14 March 1879 was German-born theoretical physicist, widely held to be one of the greatest and most influential scientists of all time. He received the 1921 Nobel Prize in Physics "for his services to theoretical physics. He published 4 papers in 1905. Einstein moved to Switzerland in 1895
classification
1. Albert Einstein born in 14 March 1879 was German-born theoretical physicist, widely held to be one of the greatest and most influential scientists of all time. The date of birth of Einstein is mentioned clearly in the context. So [Attributed]
2. He received the 1921 Nobel Prize in Physics "for his services to theoretical physics. The exact sentence is present in the given context. So [Attributed]
3. He published 4 papers in 1905. There is no mention about papers he wrote in given the context. So [Not Attributed]
4. Einstein moved to Switzerland in 1895. There is not supporting evidence for this in the given the context. So [Not Attributed]
context:{context}
answer:{ground_truth}
classification:
Ergebnisse erzielen:
[
'#############[Attributed]',
'#############[Attributed]',
'#############[Not Attributed]',
……
]
Berechnung des Prozentsatzes der [Attributed]-Ereignisse, bei denen es sich um context_recall handelt.
Persönliche Meinung:
Über diese Bibliothek: unterstützt nicht den Auzre-Zugang zu openai, muss den Quellcode ändern
Zu den vier Indikatoren
context_relevancy: doubtful (Unsicherheit über die Wirksamkeit des Modells stsb-TinyBERT-L-4 Chinese bei der Berechnung der Ähnlichkeit in agr_score)
context_recall: ist sich nicht sicher, welches Szenario zu verwenden ist ......
Treue.
answer_relevancy: wahrscheinlich zuverlässig (abhängig vontext-embedding-ada-002
(Präzision der Semantik nach Vektorisierung)