Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频
综合介绍 Sonic 是一个专注于全球音频感知的创新平台,旨在通过音频驱动生成生动的肖像动画。该平台由腾讯和浙江大学的研究团队开发,利用音频信息来控制面部表情和头部运动,从而生成自然流畅的动画视频。Sonic ...
综合介绍 Sonic 是一个专注于全球音频感知的创新平台,旨在通过音频驱动生成生动的肖像动画。该平台由腾讯和浙江大学的研究团队开发,利用音频信息来控制面部表情和头部运动,从而生成自然流畅的动画视频。Sonic ...
最近,AI 编程工具非常火爆,从 Cursor、V0、Bolt.new 再到最近的 Windsurf。 本篇我们先来聊聊开源方案-Bolt.new,产品上线四周,收入就高达400万美元。 无奈该网站国内访问速度受限,且免费 Token 额度有限。 ...
综合介绍 Ultravox是一个创新的多模态大语言模型(LLM),专为实时语音处理而设计。与传统的语音识别系统不同,Ultravox无需单独的音频语音识别(ASR)阶段,能够直接将音频转换为高维空间中的文本。这一特性使得...
在正式讨论之前,需要先明确 AI 爬虫(也称为 LLM 爬虫)的概念,它大致可以分为两类:大概可以分为两类,一类就是常规的爬虫工具,只不过它的结果是直接用于 LLM 的上下文,这类严格来说和 AI 没啥关系;另一类...
综合介绍 无限缩放稳定扩散(Infinite Zoom Stable Diffusion)是一个开源项目,旨在利用稳定扩散技术创建无限缩放视频。该项目提供了一个易于使用的Colab笔记本,用户可以通过多重提示生成无限循环的视频。项目...
综合介绍 Easy-Wav2Lip 是一个基于 Wav2Lip 的改进工具,旨在简化视频唇同步的过程。该工具提供了更简单的设置和执行方式,支持 Google Colab 和本地安装。通过优化算法,Easy-Wav2Lip 显著提高了处理速度,并修...
长文本向量模型能够将十页长的文本编码为单个向量,听起来很强大,但真的实用吗? 很多人觉得... 未必。 直接用行不行?该不该分块?怎么分才最高效?本文将带你深入探讨长文本向量模型的不同分块策略,分析利弊...
综合介绍 Research Rabbit 是一个基于本地LLM(大语言模型)的网页研究和总结助手。用户提供研究主题后,Research Rabbit 会生成搜索查询,获取相关网页结果,并总结这些结果。它会反复进行这一过程,填补知识空...
综合介绍 Reply gAI 是一个基于 LangChain 的 AI 工具,旨在为任意 X(原 Twitter)用户创建 AI 克隆。该工具通过自动收集用户的推文,并将其存储在长期记忆中,利用检索增强生成(RAG)技术生成与用户独特写作风...
更新过一期是关于 ChatGPT 的 Canvas 新功能的讲解。但仅对Canvas各种功能的简单描述,却没有细节化阐述Canvas在学术上的应用。因此后面作者会就Canvas在学术上的应用,慢慢给大家阐述明白。本期主要是围绕利用Ca...