나노브라우저: 브라우저에서 작업 자동화를 위한 다중 지능 플러그인

90.1K 00

일반 소개

나노브라우저는 AI 기반 멀티 에이전트 시스템을 통해 웹 작업을 자동화하도록 설계된 오픈 소스 Chrome 확장 프로그램입니다. 사용자가 LLM(대규모 언어 모델) API 키를 제공하기만 하면 사용할 수 있는 OpenAI Operator의 무료 대안으로, OpenAI 및 Anthropic 모델을 지원하며 향후 더 많은 옵션을 확장할 예정입니다. 모든 작업은 클라우드 데이터 공유 없이 로컬 브라우저에서 실행되므로 개인정보 보호와 보안이 보장되며, 나노 브라우저는 플래너, 네비게이터, 검증자 등 세 가지 에이전트의 협업을 통해 간단한 검색부터 복잡한 프로세스까지 다양한 작업을 처리합니다. 프로젝트 코드는 사용자가 토론에 참여하고 Discord 또는 X를 통해 기여할 수 있는 활발한 커뮤니티가 있는 GitHub에서 호스팅됩니다.

기능 목록

멀티 에이전트 시스템플래너는 전략을 개발하고, 내비게이터는 작업을 수행하며, 검증자는 결과를 확인하여 복잡한 작업을 협업합니다.
유연한 LLM 지원OpenAI 및 Anthropic을 지원하므로 사용자는 상담원마다 다른 모델을 선택할 수 있습니다.
로컬 운영:: 사용자 개인정보 보호를 위해 데이터 처리는 로컬에서 이루어집니다.
작업 자동화:: 웹 검색, 양식 작성, 데이터 추출 등을 수행합니다.
대화형 사이드바:: 실시간 상태 업데이트가 가능한 채팅 인터페이스를 제공합니다.
역사와의 대화:: 추후 열람 및 관리를 지원하기 위해 작업 기록을 보관합니다.
오픈 소스 및 투명성이 코드는 검토 및 개선을 위해 공개되어 있습니다.
후속 질문:: 작업 결과를 기반으로 맥락에 맞는 질문을 지원합니다.

도움말 사용

설치 프로세스

나노브라우저는 사전 빌드된 버전을 직접 다운로드하거나 소스에서 빌드하는 두 가지 설치 옵션을 제공하는 Chrome 확장 프로그램으로 사용할 수 있습니다.

방법 1: 사전 빌드된 버전 직접 설치

확장 프로그램 다운로드
- 인터뷰 https://github.com/nanobrowser/nanobrowser/releases.
- 릴리스 페이지에서 최신 버전(예: v1.0.0)을 찾습니다.
- "nanobrowser.zip"이라는 파일을 다운로드합니다.
파일 압축을 풉니다.
- "nanobrowser.zip"을 로컬 폴더(예: "nanobrowser" 폴더)에 압축을 풉니다.
Chrome에 로드
- Chrome을 열고 다음을 입력합니다.chrome://extensions/.
- 오른쪽 상단 모서리에서 '개발자 모드'를 활성화합니다.
- 왼쪽 상단 모서리에 있는 '포장 풀기'를 클릭합니다.
- 압축을 푼 '나노브라우저' 폴더를 선택하고 '폴더 선택'을 클릭합니다.
- 설치가 완료되면 Chrome 도구 모음에 나노브라우저 아이콘이 나타납니다.
API 키 구성
- 툴바에서 나노브라우저 아이콘을 클릭하여 사이드바를 엽니다.
- 오른쪽 상단 모서리에 있는 설정 아이콘을 클릭합니다.
- LLM API 키를 입력합니다(OpenAI 또는 Anthropic 웹사이트에서 사용 가능).
- 플래너, 네비게이터, 유효성 검사기 모델을 선택합니다(예: OpenAI의 GPT-4o 또는 Anthropic의 Claude).
- 설정을 저장하여 구성을 완료합니다.

방법 2: 소스에서 빌드

환경 준비하기
- 마운팅 Node.js(v22.12.0 이상).
- 마운팅 pnpm(v9.15.1 이상).

클론 창고

터미널을 열고 다음 명령을 입력합니다:

git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser

종속성 설치
- 입력:
```
pnpm install
```
건물 확장
- 입력:
```
pnpm build
```
- 빌드가 완료되면 "dist" 폴더에 확장자 파일이 포함됩니다.
Chrome에 로드
- '방법 1'의 3단계에 따라 'dist' 폴더를 로드합니다.
개발 모드(선택 사항)
- 실시간 디버깅이 필요한 경우 실행하세요:
```
pnpm dev
```

주요 기능 사용 방법

1. 위임 자동화

워크플로:
- 툴바에서 나노브라우저 아이콘을 클릭하여 사이드바를 엽니다.
- 입력 상자에 작업 명령을 입력합니다(예: "테크크런치로 이동하여 지난 24시간 동안의 상위 10개 헤드라인 추출").
- '실행'을 클릭하여 멀티 에이전트 시스템을 시작합니다:
  - 플래너테크크런치 열기 및 헤드라인 영역 찾기 등의 작업 계획을 만듭니다.
  - 네비게이터:: 웹 탐색 및 데이터 추출을 수행합니다.
  - 유효성 검사기:: 검사 결과와 요구 사항의 일치 여부.
- 결과는 복사 또는 후속 질문을 지원하는 사이드바에 표시됩니다.
사용 시나리오:
- 뉴스 요약특정 웹사이트에서 최신 정보를 추출합니다.
- 쇼핑 연구:: Amazon에서 "방수 블루투스 스피커, 50달러 미만, 배터리 수명 10시간 이상"을 검색하세요.
- 코드 연구GitHub에서 가장 인기 있는 Python 리포지토리를 찾아보세요.

2. 구성 에이전트 모델

워크플로:
- 사이드바를 열고 '설정'을 클릭합니다.
- 예를 들어 API 키를 입력하고 모델을 선택합니다:
  - 플래너: OpenAI GPT-4o
  - 내비게이터. 인류학 Claude 3.5 소네트
  - 유효성 검사기: OpenAI GPT-3.5
- '저장'을 클릭하여 연결이 성공했는지 테스트합니다.
STH에 주목하세요.:
- 각기 다른 모델은 각기 다른 작업에 적합하며 효율성을 높이기 위해 조합을 시도하는 것이 좋습니다.
- 작업 중단을 방지하기 위해 API 키가 유효한지 확인하세요.

3. 대화 기록 보기 및 관리하기

워크플로:
- 사이드바에서 대화 내역을 선택합니다.
- 시간, 지침 및 결과와 함께 작업 목록을 표시합니다.
- 레코드를 클릭하여 세부 정보를 보거나 '다시 시도'를 선택하여 다시 실행합니다.
실용적인 기술:
- 기록을 JSON 파일로 내보내 쉽게 백업할 수 있습니다.
- 실패한 작업의 로그를 검토하고 지침이나 모델을 최적화하세요.

4. 후속 질문

워크플로:
- 작업이 완료되면 사이드바에 "다음 중 어떤 헤드라인이 AI와 관련이 있나요?"와 같은 후속 질문을 입력합니다. .
- 시스템은 전체 작업을 다시 실행할 필요 없이 이전 결과를 기반으로 응답합니다.
최첨단:
- 상호 작용의 효율성과 심층 분석에 대한 적합성이 향상되었습니다.

주요 기능 작동

멀티 에이전트 시스템

체험 방법:
- "허깅페이스에서 가장 인기 있는 AI 모델 5개를 찾아 목록으로 정리해줘"와 같이 복잡한 명령을 입력하세요.
- 플래너는 작업을 세분화하고, 내비게이터는 데이터를 추출하며, 유효성 검사기는 정확성을 검증합니다.
- 결과는 구조화된 형식으로 반환됩니다.
최첨단:
- 동적 오류 수정: 플래너가 장애물을 만나면 전략을 조정합니다.
- 효율적인 협업: 세 명의 에이전트를 동시에 처리하여 시간을 절약하세요.

로컬 운영 및 개인 정보 보호

확인 방법:
- Chrome 개발자 도구(F12)를 열고 네트워크 탭으로 전환합니다.
- 작업을 실행할 때 다른 외부 요청은 표시되지 않고 LLM API 호출만 표시됩니다.
마일리지:
- 사용자 자격 증명과 민감한 데이터는 클라우드에 업로드되지 않으므로 안전하게 보호됩니다.

대화형 사이드바

사용 방법:
- 사이드바가 열리면 작업 진행률이 실시간으로 표시됩니다(예: '탐색 중', '유효성 검사 중').
- 명령어를 조정하거나 작업을 중간에 중지할 수 있도록 지원합니다.
특수성:
- 인터페이스는 직관적이며 초보자와 전문 사용자 모두에게 적합합니다.

주의

네트워크 요구 사항LLM API를 호출하려면 안정적인 네트워크가 필요합니다.
하드웨어 권장 사항:: 고성능 장비에서 더 잘 실행됩니다.
커뮤니티 지원:: 문제가 있는 경우 가입하기 불화 또는 관심 X 도움 받기.

Linly-Talker: 새로운 대화형 경험을 위해 빅 언어 모델과 시각 모델을 결합한 디지털 사용자를 위한 지능형 대화 시스템

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 디지털 맨

1 년 전

089.5K

PaddleOCR: 80개 이상의 언어 인식을 지원하는 플라잉 패들 기반의 다국어 OCR 툴 라이브러리입니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # OCR

1 년 전

087.7K

메이만: 온라인 소프트 퍼니싱(홈 퍼니싱) 디자인 도구, 신속한 디자인 솔루션 생성, 소프트 퍼니싱 보조 AI 툴킷

10개월 전

038.6K

Facetune：专注人像美化的照片和视频编辑器，为人像细节提供大量滤镜（付费）

Facetune: 인물 미화에 중점을 둔 사진 및 동영상 편집기로, 인물 세부 묘사를 위한 다양한 필터를 제공합니다(유료).

최신 AI 리소스 # AI 이미지 편집기

1 년 전

060.1K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

나노브라우저: 브라우저에서 작업 자동화를 위한 다중 지능 플러그인

일반 소개

기능 목록

도움말 사용

설치 프로세스

방법 1: 사전 빌드된 버전 직접 설치

방법 2: 소스에서 빌드

주요 기능 사용 방법

1. 위임 자동화

2. 구성 에이전트 모델

3. 대화 기록 보기 및 관리하기

4. 후속 질문

주요 기능 작동

멀티 에이전트 시스템

로컬 운영 및 개인 정보 보호

대화형 사이드바

주의

OWL: 현실적인 작업에서 다중 지능 협업을 위한 자동화된 도구

autoMate: AI와 RPA를 결합하여 컴퓨터 작업을 자동화하는 기본 도구

관련 게시물

Linly-Talker: 새로운 대화형 경험을 위해 빅 언어 모델과 시각 모델을 결합한 디지털 사용자를 위한 지능형 대화 시스템

PaddleOCR: 80개 이상의 언어 인식을 지원하는 플라잉 패들 기반의 다국어 OCR 툴 라이브러리입니다.

메이만: 온라인 소프트 퍼니싱(홈 퍼니싱) 디자인 도구, 신속한 디자인 솔루션 생성, 소프트 퍼니싱 보조 AI 툴킷

Facetune: 인물 미화에 중점을 둔 사진 및 동영상 편집기로, 인물 세부 묘사를 위한 다양한 필터를 제공합니다(유료).

댓글 없음

최신 컬렉션

최신 기사

나노브라우저: 브라우저에서 작업 자동화를 위한 다중 지능 플러그인

일반 소개

기능 목록

도움말 사용

설치 프로세스

방법 1: 사전 빌드된 버전 직접 설치

방법 2: 소스에서 빌드

주요 기능 사용 방법

1. 위임 자동화

2. 구성 에이전트 모델

3. 대화 기록 보기 및 관리하기

4. 후속 질문

주요 기능 작동

멀티 에이전트 시스템

로컬 운영 및 개인 정보 보호

대화형 사이드바

주의

OWL: 현실적인 작업에서 다중 지능 협업을 위한 자동화된 도구

autoMate: AI와 RPA를 결합하여 컴퓨터 작업을 자동화하는 기본 도구

관련 게시물

Linly-Talker: 새로운 대화형 경험을 위해 빅 언어 모델과 시각 모델을 결합한 디지털 사용자를 위한 지능형 대화 시스템

PaddleOCR: 80개 이상의 언어 인식을 지원하는 플라잉 패들 기반의 다국어 OCR 툴 라이브러리입니다.

메이만: 온라인 소프트 퍼니싱(홈 퍼니싱) 디자인 도구, 신속한 디자인 솔루션 생성, 소프트 퍼니싱 보조 AI 툴킷

Facetune: 인물 미화에 중점을 둔 사진 및 동영상 편집기로, 인물 세부 묘사를 위한 다양한 필터를 제공합니다(유료).

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사