
Ollama OCR:使用Ollama中视觉模型提取图像中的文本
综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Streamlit网页应用程序界面。它支持多...
综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Streamlit网页应用程序界面。它支持多...
综合介绍 FitDiT是一个基于扩散变换器(Diffusion Transformers)的高保真虚拟试衣系统。该项目由腾讯AI Lab开发,旨在解决传统虚拟试衣系统在展示服装细节时的局限性。FitDiT创新性地提出了一种新的算法架构,能够...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 Avatarify Python是一个开源的人工智能视频会议工具,基于First Order Motion Model技术,能够实时将用户的面部表情和动作映射到任意头像上。它支持在Zoom、Skype、Teams等各类视频会议软件中使用,让用...
综合介绍 FaceSwap是一个开源的深度学习人脸交换工具,它能够识别并交换图片和视频中的人脸。该项目由社区驱动开发,采用Python编写,支持Windows、Linux和MacOS等多个操作系统平台。FaceSwap利用深度学习技术,...
综合介绍 Thin-Plate-Spline-Motion-Model是一个在CVPR 2022会议上发表的开创性图像动画生成项目。该项目基于薄板样条变换理论,能够将静态图像根据驱动视频实现高质量的动画效果。项目采用端到端的无监督学习框...
综合介绍 DUIX(Dialogue User Interface System)是由硅基智能创建的AI驱动的数字人交互平台。通过开源数字人交互功能,开发者可以轻松集成大规模模型、自动语音识别(ASR)和文本转语音(TTS)功能,实现与数字...
综合介绍 Fay是一个开源的3D虚拟数字人框架,集成了语言模型和数字角色,适用于多种应用场景,如虚拟购物导购、虚拟主播、助理、服务员、教师以及基于语音或文本的移动助手。Fay框架支持全离线使用,提供毫秒级回...
综合介绍 MOFA-Video 是一个先进的图像动画生成工具,利用生成运动场适配技术,将静态图像转换为动态视频。该项目由东京大学和腾讯 AI 实验室合作开发,并将在 2024 年欧洲计算机视觉会议(ECCV)上展示。MOFA-Vi...
综合介绍 Qwen Chat(通义千问海外版)是一个由阿里云开发的多功能AI助手平台,旨在为用户提供全面的人工智能服务。该平台集成了聊天机器人、图像和视频理解、图像生成、文档处理、网络搜索集成、工具利用等多种...
综合介绍 Petal 是一个基于人工智能的文档分析平台,旨在帮助用户高效管理和分析文档。通过 Petal,用户可以将自己的知识库链接到平台上,生成完全有据可查且可靠的答案。Petal 支持多种文档类型,并提供自动元数...
综合介绍 aiCarousels 是一个专为社交媒体用户设计的在线工具,旨在帮助用户轻松创建专业的轮播图。无论是用于 LinkedIn、Instagram 还是 TikTok,该平台都提供了简便的设计工具和 AI 写作助手,使用户无需设计经...
综合介绍 Acoust 是一个在线 AI 语音生成和文本转语音(TTS)服务平台,利用最新的 AI 技术生成逼真的语音。该平台还提供强大的视频编辑工具,使用户无需使用多种软件即可完成视频制作。Acoust 支持超过 30 种语...
综合介绍 Hour One 是一个领先的AI视频生成平台,专注于通过生成虚拟人视频来提升品牌影响力和企业培训效果。该平台利用先进的生成式AI技术,帮助用户轻松创建高质量的视频内容,无需专业的拍摄设备或视频编辑技...
综合介绍 Amurex是由The Personal AI Company开发的开源AI会议助手,旨在通过智能化的功能提升会议效率。Amurex能够实时提供建议、生成智能总结、记录会议内容,并自动发送跟进邮件。其设计注重透明性、安全性和...
综合介绍 E2B Open Computer Use 是一个开源项目,旨在通过 E2B 桌面沙盒提供安全的云端 Linux 计算机使用体验。E2B沙盒提供了一个桌面图形环境,用户可以将其连接到任何大型语言模型(LLM)上来控制计算机,支持...
综合介绍 Agent Laboratory 是一个端到端的自主研究工作流,旨在帮助研究人员实现他们的研究想法。该系统由大型语言模型驱动的专用代理组成,支持整个研究工作流——从进行文献综述和制定计划到执行实验和撰写综合...
综合介绍 匠邦AI是一款专注于教育领域的智能助手,旨在通过人工智能技术提升教师的工作效率和教学质量。该网站提供多种功能,包括教案设计、课题报告指导、论文查重降重、PPT课件生成等,帮助教师在教学、科研和...
综合介绍 Cursor Pro Trial 是一个专为 Cursor Pro 试用版用户设计的设备标识重置工具。该工具通过纯前端生成新的设备标识码,确保用户在不依赖后端服务的情况下,能够快速、安全地重置设备标识。Cursor Pro Tria...
综合介绍 流畅阅读(FluentRead)是一款高效的浏览器翻译插件,旨在为用户提供基于母语般的阅读体验。该插件利用人工智能引擎,能够将网页上的文字翻译成多种语言,方便、快捷、直观。流畅阅读支持多种翻译模式,...