AI分享圈

AI正在改变世界!
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL是百度开源的超轻量级视觉-语言模型,专为文档解析场景优化。模型仅含0.9B参数,通过融合动态高分辨率视觉编码器与轻量级ERNIE语言模型,在保持高精度的同时显著降低计算开销。
7个月前
049K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及Pi...
7个月前
037.2K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差...
7个月前
039.3K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Kandinsky 5.0是俄罗斯AI团队开发的最新视频生成模型系列,主打轻量化设计与高性能表现。系列首款模型Kandinsky 5.0 Video Lite仅20亿参数却超越了同类14B大模型,尤其...
7个月前
046.7K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom是腾讯AI Lab联合香港中文大学(深圳)与南京大学研发的开源歌曲生成模型,解决AI音乐生成中的“塑料感”问题,实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词,即可...
7个月前
037.9K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn是专为Python开发者设计的智能代码质量分析工具,主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码,计算模块耦合度和圈复杂度等指标...
7个月前
031.6K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开源的通用文本表示模型,专为企业级应用设计。通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近,实现精准的语义检索。
7个月前
035.7K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2是字节跳动团队开源的多模态视觉语言模型,专注于图像、文本等多模态输入的联合建模。采用稀疏混合专家(MoE)架构和渐进式训练策略,在2B至8B参数规模下实现了高性能,尤其在图文理解、数学...
7个月前
028.5K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext是字节跳动Viking团队开源的主动式上下文感知AI伙伴,帮助用户高效管理海量信息,提升知识工作效率。过屏幕截图和内容理解技术,自动记录用户日常操作(如浏览网页、编辑文档等),支...
7个月前
049.4K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - Karpathy免费开源的低成本模型训练项目

nanochat是AI领域传奇人物、前特斯拉AI总监Andrej Karpathy发布的开源项目,以极低的成本和简单的操作,让个人能快速训练出一个类似ChatGPT的小型语言模型。整个项目仅用约800...
7个月前
034.8K