
Tarsier:生成高质量视频描述的开源视频理解模型
综合介绍 Tarsier 是字节跳动(ByteDance)开发的一个开源视频-语言模型家族,主要用于生成高质量的视频描述。它由简单的结构组成:CLIP-ViT 处理视频帧,结合大语言模型(LLM)分析时间关系。最新版本 Tarsier2-...
综合介绍 Tarsier 是字节跳动(ByteDance)开发的一个开源视频-语言模型家族,主要用于生成高质量的视频描述。它由简单的结构组成:CLIP-ViT 处理视频帧,结合大语言模型(LLM)分析时间关系。最新版本 Tarsier2-...
综合介绍 Austen 是一个开源的 AI 工具,它使用 Angular 框架和 Analogjs 初始化,结合 Mermaidjs 技术生成图表,帮助用户分析书籍中的角色关系。用户可以输入 Open Library 中的书籍名称,Austen 会通过 AI 自动...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 DeepCoder-14B-Preview 是由 Agentica 团队开发并在 Hugging Face 平台发布的开源代码生成模型。它基于 DeepSeek-R1-Distilled-Qwen-14B,通过分布式强化学习(RL)技术优化,能处理高达 64K token 的超...
综合介绍 Thera 是一个开源的图像超分辨率工具,由苏黎世联邦理工学院(ETH Zurich)和苏黎世大学的团队开发。它能将低分辨率图像放大到任意尺度,比如 2 倍、3.14 倍甚至非整数倍,并且放大后没有锯齿或模糊。Th...
综合介绍 A2A(Agent2Agent)是谷歌开发的一个开源协议,目的是让不同框架或厂商开发的AI智能体能够互相通信和协作。它提供了一套标准化的方法,让智能体可以发现彼此的能力、分担任务并完成工作。A2A解决的核心...
综合介绍 Tabby 是一个开源的 AI 编程助手,由 TabbyML 团队开发,用户可以自己部署在本地或服务器上。它提供类似 GitHub Copilot 的功能,比如代码自动补全和智能问答,但最大的特点是自托管,不依赖云服务或数...
综合介绍 LM Speed 是一个专门为AI开发者设计的工具,同时提供在线服务网站 lmspeed.net。它的核心功能是测试和分析语言模型 API 的性能,帮助用户快速发现速度瓶颈并优化调用策略。这个工具支持 OpenAI API 等多...
综合介绍 DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。它内置...
综合介绍 TestDriver 是一个利用人工智能技术帮助开发者测试软件的网站。它通过模拟人类操作,比如点击鼠标、输入文字,来自动完成软件的测试任务。网站的核心是“计算机使用AI代理”,能像真人一样操作电脑,适合...
综合介绍 SiteMCP 是一个开源工具,核心功能是抓取整个网站的内容并将其转化为 MCP(Model Context Protocol)服务器,让 AI 助手(如 Claude Desktop)直接访问网站数据。它由开发者 ryoppippi 开发,托管在 Git...
综合介绍 Deep Chat 是一个开源的 AI 聊天组件,专为网站开发者设计。它由 Ovidijus Parsiunas 开发,托管在 GitHub 上,目前已有超过 2k 星标。用户可以通过简单配置,将其集成到网站中,支持对接 OpenAI、Huggi...
综合介绍 Arrakis 是一个专为 AI 智能体设计,提供安全、可自定义的沙盒环境。它由 Abhishek Bhardwaj 开发,托管在 GitHub 上,使用 AGPL v3 许可证。Arrakis 通过轻量级虚拟机(MicroVM)技术隔离 AI 代码,确...
综合介绍 它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型:视觉模型(Vis...
综合介绍 Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型,专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言,以及 22 种中国方言。模型基于超过 21 万小时的...
综合介绍 AstrBot 是一个开源的聊天机器人开发框架,它支持 QQ、Telegram、微信等多种消息平台,并能轻松接入 OpenAI、DeepSeek、Google Gemini 等大语言模型(LLM)。这个框架提供插件系统、可视化管理面板和多...
综合介绍 WeClone 是一个开源项目,它通过微信聊天记录和语音消息,结合大语言模型和语音合成技术,让用户创建个性化的数字分身。项目能分析用户的聊天习惯来训练模型,还可以用少量语音样本生成逼真的声音克隆。...
综合介绍 DiffPortrait360 是一个开源项目,隶属于 CVPR 2025 论文《DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis》。它能从单张人像照片生成前后一致的 360 度头部视图,支持真实人...
综合介绍 mcp-ui 是一个开源项目,由开发者 machaojin1917939763 创建,基于 Model Context Protocol(MCP)协议打造,是一款支持 Web 和桌面环境的智能聊天应用。MCP 是 Anthropic 推出的开放协议,能让 AI 模型...
综合介绍 Comp AI 是一个开源平台,由 Comp AI, Inc. 开发,总部位于美国旧金山。它帮助企业通过自动化工具快速完成 SOC 2、ISO 27001 和 GDPR 等合规要求,目标是几周内完成准备,而非几个月。平台定位为 Drata ...