딥 레이크, 프라이빗 멀티모달 데이터에 기반한 딥 리서치 프로그램 제안

52.7K 00

개인 및 공용 데이터에 대해 보다 정확하고 유연한 멀티모달 지식 에이전트를 제공하는 Activeloop의 딥씽킹 기술을 이제 완전히 사용할 수 있습니다.

2025년을 앞두고 있는 지금, 제너레이티브 AI(GenAI)는 투자 수익률(ROI) 측면에서 중요한 한 해를 맞이할 것입니다. 멀티모달 데이터에 기반한 지식 에이전트는 이를 달성하기 위한 핵심 동력입니다.

애초에 딥 리서치를 구축한 이유

지난 1년 동안 Activeloop 팀은 다양한 조직, 특히 포춘 500대 기업들과 심도 있는 대화를 나누었습니다. 그 결과, 비즈니스 사용자들이 성능 지연에 대해 어느 정도 관용을 보이고 있지만 정확도 감소는타협하지 않는사실 데이터 검색의 정확성은 극복할 수 없는 과제가 되었습니다. 실제로 데이터 검색의 정확성은 극복할 수 없는 수익이 되었으며, 조직이 제너레이티브 AI를 사용하여 수익 또는 효율성을 진정으로 개선하고 이를 통해 추가 인프라 및 모델에 대한 막대한 투자를 정당화할 수 있는 능력과 직접적으로 연관되어 있습니다.

보험 청구 심사를 위해 환자 건강 데이터를 수집하는 간호사부터 특허 출원을 위해 철저한 특허 검색을 수행하는 법률 사무원, 복합 가설을 테스트하기 위해 PubMed에 새로 발표된 논문을 평가하는 연구원에 이르기까지 지식 근로자는 매일 반복적이고 고도로 수작업이 많은 검색 작업에 많은 시간을 할애합니다.

보수적인 추정에 따르면 조직 내 수동 검색 행위로 인해 약 21.31조에서 251조원의 생산성이 낭비되는 것으로 나타났습니다. 이는 직원 1인당 연간 약 2만 달러의 손실에 해당합니다. 직원이 1,000명인 중간 규모의 조직의 경우, 비효율적인 검색으로 인해 다음과 같은 손실이 발생할 수 있습니다. 2,000만 달러 재정적 손실. 팀원 중 한 명이 '누락된' 파일을 찾는 데 시간을 할애할 때마다 조직의 데이터를 가지고 숨바꼭질 게임을 하는 데 돈을 지불하고 있지만 그 누구도 이로부터 이익을 얻지 못한다고 상상해 보세요.

오늘 Activeloop는 이러한 문제를 해결하기 위해 설계된 혁신적인 솔루션, 즉 조직 내부와 외부의 멀티모달 데이터를 기반으로 매우 정확하고 심층적으로 분석된 답변을 생성하는 AI 지식 에이전트를 소개하게 되어 자랑스럽게 생각합니다.

OpenAI 딥 리서치 비교

딥 레이크 와 함께 OpenAI의 심층 연구OpenAI의 딥 리서치는 인터넷에서 자율적으로 정보를 검색할 수 있는 AI 기반 비서를 구축하는 데 초점을 맞추고 있으며, 딥 레이크는 인터넷에서 자율적으로 정보를 검색할 수 있는 AI 기반 비서를 제공하는 데 중점을 두고 있습니다. 반면에 Deep Lake는 다음을 제공하는 데 중점을 둡니다. 엔터프라이즈급, 멀티모달 AI 검색 시스템다음과 함께 작업할 수 있는 기능 공개 및 비공개 데이터 원활한 통합을 달성하세요. 사용자가 질문할 수 있는 데이터의 유형과 검색 결과 측면에서 정확성 더 나아가 손재주 딥 레이크는 다음을 입증했습니다. 일치하거나 심지어 능가하는 OpenAI 딥 리서치의 강점.

1. 개인 데이터와 공용 데이터 연결

딥 레이크와 OpenAI 딥 리서치의 주요 차이점은 다음과 같습니다.딥 레이크는 퍼블릭 데이터에만 국한되지 않습니다.. 원래는 다음과 같이 설계되었습니다. 기업 사용자 서비스에 있어야 하는 사람들, 특히 독점적이고 민감한 고가치 데이터 세트 AI 기반 검색을 수행하는 기업들입니다. Activeloop의 조사에 따르면 약 63%의 조직이 데이터를 통합하고 AI 시스템에 연결하는 데 어려움을 겪고 있는 것으로 나타났습니다. Deep Lake는 조직의 Amazon S3 또는 Azure 클라우드 환경에 즉시 배포할 수 있으며(이미 각 앱 마켓플레이스에서 사용 가능), 사용자가 이 데이터를 기반으로 즉시 질문하고 분석할 수 있도록 지원합니다.

배포 프로세스는 아래 그림과 같이 매우 간단합니다:

Deep Lake 提出建立在私有多模态数据之上的 Deep Research 方案

딥 리서치는 공개적으로 액세스할 수 있는 리소스를 검색하는 것으로 제한됩니다.하지만 조직은 Deep Lake를 통해 내부 연구, 보고서, 지적 재산 및 기밀 데이터에서 귀중한 인사이트를 안전하게 저장하고 검색할 수 있습니다..
이는 다음을 위해 매우 중요한 단계입니다. 생명공학, 의료 기술, 금융 및 법률 산업. 이러한 산업은 공개 웹 검색 결과보다는 독점 정보에 대한 의존도가 높기 때문에 이는 매우 중요합니다.
엔터프라이즈급 보안 기능 (RBAC 권한 관리, SOC 2 유형 II 규정 준수 인증, 침투 테스트 등 포함) 민감한 데이터는 항상 다음 위치에 있는지 확인합니다. 규정 준수 및 보호 최첨단 기술.

2. 시각 언어 모델에 기반한 멀티모달 검색

딥 레이크는 처음부터 기본 아키텍처에 초점을 맞췄습니다. 멀티모달 AI 검색 기능이 내장되어 있어 쉽게 처리할 수 있습니다. 다양한 데이터 유형이 포함된 복잡한 작업에 유리함그리고 딥 리서치는 주로 다음과 같은 주제를 다루지만 텍스트 기반 쿼리 (그리고 일부 이미지 및 파일 처리 기능도 있음), Deep Lake는 완벽하게 지원됩니다:

텍스트, 이미지, 비디오, 오디오 및 구조화된 메타데이터에 걸친 원활한 교차 모드 쿼리.
멀티모달 검색에 최적화된 미세 조정된 시각 언어 모델(VLM)다음과 같은 상황에서도 매우 복잡한 혼합 데이터 쿼리또한 이 시스템은 정확하고 상관관계가 높은 결과를 반환합니다.
실시간 하이브리드 검색벡터, 키워드, 구조화 기반 검색 기술을 현명하게 조합하여 검색 정확도를 크게 향상시킵니다.

3. 다음 검색 정확도와 비슷하거나 더 나은 검색 정확도

딥 레이크는 다음과 같은 특징이 있습니다. 고급 검색 아키텍처검색 결과는 다음을 보장하는 좋은 방법일 뿐만 아니라 OpenAI의 딥 리서치와 비슷하거나 더 뛰어난 정확도. 에 주로 의존하는 것과는 대조적으로 테스트 중 추론과 일련의 사고 과정 딥 리서치의 딥 레이크는 다음과 같은 기술을 혁신적으로 사용합니다:

딥 메모리 기술을 통해 사용자의 과거 검색 행동을 동적으로 학습하고, 사용자의 특정 사용 사례에 맞게 결과를 맞춤화하며, 업계 용어와 사용자 선호도를 학습하여 검색 정확도를 지속적으로 개선합니다. 이를 통해 딥 레이크는 도메인별 사용 사례에서 최고 수준의 성능을 달성할 수 있습니다.
멀티모달 검색 기술실현 클라우드 및 로컬 스토리지의 텍스트, 이미지, 비디오, 오디오 및 구조화된 데이터 원활한 상호 참조

4. BYOM: 나만의 모델 가져오기

Deep Lake는 단일 모델 공급업체에 국한되지 않고 다음과 같은 기본 AI 모델을 선택할 수 있습니다. 완벽한 유연성.

사용자는 다음을 수행할 수 있습니다. 원하는 모델에 유연하게 액세스포함 사항 최첨단 오픈 소스 모델, 미세 조정된 도메인별 LLM(대규모 언어 모델) 및 SLM(소규모 언어 모델), Anthropic Claude 및 Google Gemini와 같은 기타 주요 클로즈드 소스 모델을 제공합니다..

5. 비용 최적화된 성능의 1초 미만 쿼리

자연어 쿼리는 자동으로 일련의 후속 쿼리 문으로 변환됩니다. 기본 메커니즘 측면에서 Activeloop의 시스템은 매우 정확한 응답을 지원하기 위해 증거를 포괄적으로 수집하기 위해 추가로 쿼리해야 하는 데이터 하위 집합을 결정합니다(выяснить는 러시아어, 중국어로 대체됨: 결정).

딥 레이크 사용 인덱스 온 더 레이크 기술, 지원 개체 저장소에서 직접 기존 인메모리 시스템과 비교하여 1초 미만의 쿼리를 수행하여 최대 10배 더 비용 효율적. 이는 상당한 이점을 가져다 줍니다:

1초 미만 지연최신 버전의 소프트웨어는 대규모 데이터 세트(1억 개 이상의 레코드)로 작업할 때에도 응답 시간이 가장 빠른 소프트웨어입니다.
값비싼 캐싱이 필요 없습니다.쿼리 프로세스가 고도로 최적화되어 저장 비용을 낮추면서 실시간 검색을 달성할 수 있습니다.
클라우드 환경 전반에서 탄력적으로 확장 가능따라서 딥 레이크는 빠른 속도를 필요로 합니다,비용 효율적인 AI 검색 AI 네이티브 애플리케이션을 위한 솔루션입니다.

딥 레이크의 작동 방식

딥 레이크는 데이터 저장 및 검색을 위한 핵심 구성 요소를 구축하는 데 중점을 두고 있으며, 사용자에게 모든 종류의 AI 워크플로우를 지원하는 최적의 방식으로 데이터를 저장하고 검색할 수 있는 기능을 제공하는 것을 목표로 합니다.

사용자로부터 방대한 양의 데이터를 연결하고 인덱싱한 후, Deep Lake의 지식 에이전트 일련의 정교한 연구 작업을 계획하고 광범위한 데이터 세트와 양식에 걸쳐 다단계 쿼리를 수행하여 사용자가 제기한 질문에 답하는 데 필요한 핵심 데이터를 정확히 이해하고, 더 중요한 것은 시스템에 해당 질문에 답할 수 있는 충분한 증거가 있는지 판단할 수 있습니다. 또한 지식 에이전트는 MaxSim과 같은 고급 검색 기술을 활용하여 시각적 및 텍스트 컨텍스트를 결합하여 정확한 검색을 수행하고, 검색된 주요 정보를 수십억 줄의 텍스트 데이터에서 인용된 내용과 함께 사용자에게 참조로 제시합니다.

사용자가 질문할 수 있는 질문 유형

이제 딥 레이크는 모든 사용자 팀원에게 개방되며, 사용자가 질문할 수 있는 질문의 수나 쿼리할 수 있는 데이터의 크기 및 양식에 제한이 없습니다.

사용자가 질문할 수 있는 몇 가지 유형의 예는 다음과 같습니다:

환자 이력 데이터, 실험실 검사, 자기공명영상(MRI) 보고서의 조합

복잡한 용어와 개념에 대한 참조 찾기 및 연결 짓기

다음 예는 마르셀 프루스트의 문학 걸작인 '잃어버린 시간을 찾아서'에서 가져온 것으로, 1150페이지가 넘는 PDF 버전으로 구성된 가장 긴 책 중 하나입니다.

연구 결과 전반에 걸친 심층 조사

질문: 예 DeepSeek 추론 작업 전반의 성능?

시스템에서 제공하는 답안에는 논문 텍스트와 도표의 정보가 모두 포함됩니다.

알려진 제한 사항

모든 시스템에는 필연적으로 한계가 있을 수밖에 없으며, 이는 Deep Lake도 마찬가지입니다. Activeloop의 경우, Deep Lake 지식 에이전트는 심층 분석에 더 집중하고 응답 결과에 신중을 기하도록 조정되어 있습니다. 따라서 사용자가 즉각적이고 간단한 답변이 필요할 때는 Deep Lake가 최선의 선택이 아닐 수 있습니다. 그러나 심층적인 사고가 필요한 도메인별 쿼리에 직면했을 때 Deep Lake는 그 성능을 발휘합니다.

Activeloop는 소중한 사용자 피드백을 바탕으로 제품을 지속적으로 개선하기 위해 현재 공식적으로 딥 레이크 시스템을 공개 프리뷰로 오픈하고 있습니다. 또한 Activeloop는 사용자 경험을 더욱 최적화하기 위해 쿼리의 복잡성에 따라 "빠른" 및 "느린" 사고 모드를 전환할 수 있는 스마트 라우터도 적극적으로 개발 중입니다.

플래그십 파이오니어가 딥레이크를 활용하여 생명공학 분야에서 혁신을 이룬 방법

플래그십 파이오니어링은 인류의 건강과 지속가능성 분야를 혁신하는 혁신적인 플랫폼 개발과 스타트업 인큐베이팅에 주력하는 미래 지향적인 생명공학 회사입니다. 플래그십 파이오니어링은 과학 연구 역량을 강화하기 위해 Activeloop와 긴밀한 협력 관계를 맺었습니다. RAG (검색 강화 생성) 기능을 제공합니다. 이번 파트너십을 통해 플래그십 파이오니어링의 파이오니어링 인텔리전스 팀은 Activeloop와 긴밀히 협력하여 Activeloop 딥 레이크 지식 에이전트를 기반으로 한 고급 시스템을 개발했습니다. 이 시스템을 통해 플래그십 파이오니어링은 전 세계의 과학 연구 결과를 효율적으로 검색하고, 기존의 벡터 또는 키워드 기반 검색에 비해 약 181 TP3T의 정확도를 높여 멀티모달 생의학 데이터를 심층적으로 분석할 수 있습니다. 특히 이 시스템은 텍스트에 명시적으로 언급되지 않은 특정 그래프와 차트에서도 핵심 정보를 정확하게 포착할 수 있습니다. 이 시스템은 기사 텍스트에 명시적으로 언급되지 않은 특정 다이어그램의 핵심 정보까지 캡처하여 플래그십 파이오니어의 연구 역량을 크게 향상시킵니다.