
MiniMind-V:1小时训练26M参数视觉语言模型
综合介绍 MiniMind-V 是一个开源项目,托管于 GitHub,旨在帮助用户在 1 小时内训练一个仅 2600 万参数的轻量级视觉语言模型(VLM)。它基于 MiniMind 语言模型,新增视觉编码器和特征投影模块,支持图像和文本联...
综合介绍 MiniMind-V 是一个开源项目,托管于 GitHub,旨在帮助用户在 1 小时内训练一个仅 2600 万参数的轻量级视觉语言模型(VLM)。它基于 MiniMind 语言模型,新增视觉编码器和特征投影模块,支持图像和文本联...
综合介绍 Open-Sora 是一个开源项目,旨在让任何人都能高效生成高质量视频。它由 hpcaitech 团队开发,提供从文本或图像生成视频的工具,支持多种分辨率和时长。项目完全开源,公开模型权重、代码和训练流程,鼓...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 CloudFlare-AI-Image 是一个开源项目,托管在 GitHub 上,通过 Cloudflare Workers 平台提供免费的 AI 图像生成服务。它支持文生图和图生图功能,基于五种模型,包括 Flux.1 [schnell]、Stable Diffusio...
综合介绍 OneLine 是一个开源的热点事件时间轴生成工具,托管在 GitHub,由用户 chengtx809 开发。它通过用户输入的关键词,快速生成事件的时间轴,展示事件的时间、标题、描述和相关人物。AI分析功能为事件提供...
综合介绍 AiPy 是一个开源的 Python 命令行工具,由 Knownsec 团队开发。它结合大语言模型(LLM)和 Python 运行环境,让用户通过自然语言描述任务,自动生成并运行 Python 代码。AiPy 适合数据工程师、程序员和...
综合介绍 realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护,托管在 G...
综合介绍 Awesome-Dify-Workflow 是一个开源的 GitHub 项目,专注于分享实用的 Dify 工作流程模板。Dify 是一个支持开发大语言模型应用的工作流平台,而这个项目为用户提供了多种现成的 DSL(Domain Specific Lan...
综合介绍 Agnai Chat 是一个开源的AI聊天平台,用户可以创建个性化AI角色,进行单人或多人互动。它支持多种AI服务,包括OpenAI、Claude、Kobold等,适合娱乐、角色扮演、教育或客服场景。平台无需安装,直接在浏...
综合介绍 Yuxi-Know 是一个开源的智能问答平台,结合知识图谱和 RAG(检索增强生成)技术,帮助用户快速获取精准答案。它基于 Neo4j 存储知识图谱,使用 FastAPI 和 VueJS 构建后端和前端,支持多种大模型,如 Op...
综合介绍 Chatlog 是一个开源工具,专注于从微信本地数据库提取和查询聊天记录。它支持微信 3.x 和 4.0 版本,覆盖 Windows 和 macOS 系统。用户可以通过命令行、终端界面或 HTTP API 操作,查看聊天记录、联系人...
综合介绍 Versatile OCR Program 是一个开源的光学字符识别(OCR)工具,专门为处理复杂的学术和教育文档设计。它能从PDF、图像等文件中提取文本、表格、数学公式、图表和示意图,并生成适合机器学习训练的结构化...
综合介绍 Orpheus-TTS 是一个开源的文本转语音(TTS)系统,基于 Llama-3b 架构开发,目标是生成接近人类自然语音的音频。它由 Canopy AI 团队推出,支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和汉语等...
综合介绍 serverless-qrcode-hub 是一个开源工具,专为解决微信群聊二维码频繁失效的问题而设计。它基于 Cloudflare Workers 和 D1 数据库,无需传统服务器即可运行。用户可以生成永久有效的微信群二维码,方便群...
综合介绍 self.so 是一个开源工具,专为快速将简历或 LinkedIn 个人资料转化为个人网站而设计。用户只需上传 PDF 简历或输入 LinkedIn 链接,系统通过 AI 技术(基于 Together.ai 的 Qwen 2.5 模型)提取信息,生...
综合介绍 OmniSVG 是一个开源项目,专注于通过多模态模型生成高质量矢量图形(SVG)。它利用预训练的视觉-语言模型,支持从文本描述或图像输入生成 SVG,涵盖简单图标到复杂动漫角色的多种场景。项目提供了 MMSVG...
综合介绍 Napkins.dev 是一个免费的开源项目,核心功能是让用户上传界面截图或线框图,自动生成可运行的前端代码。用户只需提供一张设计图,工具会通过 Llama 4 模型(由 Together AI 提供推理支持)分析图像,生...
综合介绍 Agent-Wiz 是一个开源的Python命令行工具,专为开发者、研究人员和安全团队设计。它能从LangGraph、CrewAI、AutoGen等主流AI智能体框架中提取复杂的工作流程,生成直观的可视化图表,并通过MAESTRO威胁...
综合介绍 Orion 是小米实验室开发的开源项目,专注于端到端(E2E)自动驾驶技术。它通过视觉语言模型(VLM)和生成式规划器,解决传统自动驾驶方法在复杂场景中因果推理不足的问题。Orion 整合长期历史上下文、驾...
综合介绍 ReCamMaster 是一个开源视频处理工具,核心功能是从单一视频生成新的相机视角。用户可以指定相机轨迹,重新渲染视频,获得不同角度的动态画面。它由浙江大学、快手科技等团队开发,基于文本到视频扩散模...