Inflection-2.5: 세계 최고의 개인용 AI를 만나보세요.

44.7K 00

Inflection의 미션은 모든 사람을 위한 개인용 AI를 만드는 것이며, 지난 5월 [...]를 출시했습니다.Pi공감하고, 도움이 되며, 안전한 개인용 AI.11월에는 새로운 기본 모델 [...]의 출시를 발표했습니다.인플렉션-2], 당시 세계에서 두 번째로 우수한 대규모 언어 모델이었죠.

이제 파이의 뛰어난 EQ(감성 지수)에 IQ(지능 지수)를 추가합니다.

GPT-4 및 Gemini와 같은 세계 최고의 대규모 언어 모델에 필적하는 업그레이드된 자체 모델인 Inflection-2.5를 출시했습니다. 이 모델은 원시적인 성능에 우리 특유의 공감 능력과 미세 조정을 결합했습니다. 오늘부터 Inflection-2.5는 [...]에서 사용할 수 있습니다.pi.ai]( ), [iOS], [Android(운영 체제)] 또는 새로운 [데스크톱] 애플리케이션을 모든 Pi 사용자에게 제공합니다.

Inflection-2.5는 GPT-4와 거의 동일한 성능을 제공하면서도 트레이닝에 사용하는 연산량은 GPT-4와 거의 비슷한 수준입니다.40%.

특히 코딩과 수학과 같은 IQ 영역에서 많은 발전을 이루었습니다. 이는 주요 업계 벤치마크의 구체적인 개선 사항으로 반영되어 Pi가 기술의 선두를 유지하도록 보장합니다.Pi는 이제 다음을 포함합니다.세계 최고 수준의 실시간 웹 검색 기능:: 사용자가 고품질 업데이트와 최신 정보에 액세스할 수 있도록 하세요.

사용자들에게 Inflection 2.5를 배포한 결과, 사용자들이 정말 좋아하고 있습니다! 사용자 정서, 참여도, 리텐션이 크게 증가하여 유기적인 사용자 증가가 가속화되고 있습니다.

하루에 100만 명, 한 달에 600만 명의 활성 사용자가 Pi를 통해 40억 건 이상의 메시지를 주고받았습니다.

파이와의 평균 대화 시간은 다음과 같습니다.33분.매일 10건 중 1건의 대화가 1시간 이상 지속됩니다. 특정 주에 Pi와 대화하는 사람들 중 약60%다음 주에 다시 말씀드리겠지만, 저희는 주요 경쟁사보다 월별 고착화율이 더 높습니다.

Inflection-2.5의 강력한 기능을 통해 사용자는 시사 토론, 지역 맛집 추천, 생물학 시험 공부, 사업 계획서 작성, 코딩, 중요한 대화 준비, 취미에 대한 즐거운 토론 등 그 어느 때보다 다양한 주제에 대해 Pi와 함께 토론할 수 있습니다. 하루빨리 파이의 다양한 기능을 보여드리고 싶습니다.

기술적 결과

아래에는 일련의 주요 업계 벤치마크 테스트 결과가 나와 있습니다. 간단히 설명하기 위해 Inflection-2.5와 GPT-4를 비교했습니다. 이 결과는 Pi가 이제 업계에서 인정받는 리더에 필적하는 IQ 기능을 갖추었음을 보여줍니다. 보고 형식의 차이로 인해 저희는 평가에 사용된 형식에 주의를 기울이고 있습니다.

Inflection-1은 GPT-4에 약 41 TP3T의 훈련 부동 소수점 연산(FLOP)을 사용했으며, 다양한 IQ 중심 작업에서 평균 약 721 TP3T의 GPT-4 성능을 발휘했습니다. 현재 파이를 구동하는 Inflection-2.5는 401 TP3T의 트레이닝 FLOP만 사용함에도 불구하고 GPT-4에서 평균 941 TP3T 이상의 성능을 달성했습니다. 다양한 영역에서 상당한 성능 향상을 보였으며, 특히 STEM 영역에서 가장 큰 개선이 이루어졌습니다.

Inflection-2.5는 고등학교부터 전문가 수준의 난이도까지 다양한 작업의 성능을 측정하는 다양한 벤치마크인 MMLU 벤치마크에서 Inflection-1에 비해 상당한 발전을 이루었습니다. 또한 전문가 수준의 벤치마크인 매우 어려운 GPQA 다이아몬드 벤치마크도 평가했습니다.

또한 헝가리 수학 시험과 물리학 대학원 입학 시험인 물리학 GRE의 성적 등 두 가지 STEM 시험의 결과도 포함되어 있습니다.

헝가리어 수학의 경우 [다음은 다음과 같습니다.반복을 용이하게 하기 위해 소수의 샘플 힌트와 형식이 제공됩니다. Inflection-2.5는 힌트에서 첫 번째 예제만 사용합니다.

우리는 또한...게시됨.)는 실제 GRE 시험(GR8677, GR9277, GR9677, GR0177)의 가공된 버전을 공개하고 첫 번째 시험에서 Inflection 2.5의 성능을 GPT-4와 비교했습니다. 그 결과, Inflection 2.5는 MAJ@8에서 인간 응시자의 85번째 백분위수에 도달했으며, MAJ@32에서는 거의 최고 점수를 획득한 것으로 나타났습니다. 폭넓은 비교를 위해 이미지가 있는 일부 문제는 아래 결과에서 제외했습니다. 어쨌든 모든 문제를 공개했습니다.

대규모 언어 모델에 어려운 BIG-Bench의 하위 집합인 BIG-Bench-Hard 문제에서 Inflection-2.5는 Inflection-1보다 101 TP3T 이상 향상되었으며, 가장 강력한 모델과 동등한 성능을 보였습니다.

우리는 아직 여기 있습니다.MT-Bench저희는 모델 비교를 위해 널리 알려진 커뮤니티 리더보드인 MT-Bench에서 저희 모델을 평가했습니다. 하지만 MT-Bench를 평가한 결과 추론, 수학, 코딩 카테고리의 예제 중 약 1/4이 잘못된 참조 솔루션을 사용하거나 문제 전제에 결함이 있다는 사실을 알게 되었습니다. 따라서 이러한 예제를 수정하여 [...]에 게시했습니다.다음은 다음과 같습니다.] 데이터 세트의 수정된 버전을 공개했습니다.

이 두 하위 집합을 평가할 때, 올바르게 수정된 버전에서 모델이 다른 벤치마크 테스트에 기반한 기대치와 더 일관되게 작동하는 것을 확인했습니다.

Inflection-2.5는 아래 표에서 볼 수 있듯이 수학 및 코딩 성능 측면에서 Inflection-1보다 특히 개선된 기능을 제공합니다.

MBPP+와 HumanEval+ 코딩 벤치마크 모두에서 Inflection-1보다 크게 개선된 것을 확인할 수 있습니다.

MBPP의 경우 [...]의 결과를 보고합니다.딥시크 코더] 값을 사용했습니다. HumanEval의 경우 [평가 플러스] 결과를 리더보드에 표시합니다(2023년 5월 GPT-4).

또한 많은 모델이 보고하는 일반적인 상식적이고 과학적인 벤치마크인 HellaSwag와 ARC-C에서 Inflection-2.5의 성능도 평가했습니다. 두 경우 모두 포화 상태에 가까운 벤치마크에서 우수한 성능을 보였습니다.

위의 모든 평가는 현재 Pi를 구동하는 모델에 대한 것이지만, 웹 검색의 영향(위의 벤치마크에서는 웹 검색을 사용하지 않음), 적은 수의 예제 프롬프트 구조 및 기타 프로덕션 환경의 차이로 인해 사용자 환경이 약간 다를 수 있다는 점에 유의하시기 바랍니다.

요컨대, 인플렉션 2.5는 Pi의 독특하고 친근한 개성과 탁월한 안전 기준을 유지하면서 모든 면에서 더욱 친근한 모델이 되었습니다.

전 세계 수백만 명의 사용자에게 Pi의 최첨단 언어 모델을 제공하는 데 도움을 주신 Azure 및 CoreWeave의 파트너에게 감사드립니다.