AI分享圈

AI正在改变世界！

文章487 网址273 书籍0 软件0 评论0

已发布487

DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别（OCR）模型，通过“上下文光学压缩”技术，将文本转换为图像，利用视觉 token 进行压缩和解码，实现高效长文本处理。

最新AI资源

9个月前

056.3K

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准，评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体，构建包...

最新AI资源

9个月前

047.7K

MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5是上海人工智能实验室与北京大学团队联合研发的解耦式视觉语言模型，专注于高效处理高分辨率文档图像解析。核心创新在于采用"先全局版面检测后局部内容识别"的两阶段设计：第一阶段通过低分辨率...

最新AI资源

9个月前

060.7K

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec是美团LongCat团队开源的语音编解码方案。方案专为语音大语言模型（Speech LLM）设计，通过语义与声学双Token并行提取机制，兼顾语音的语义和声学特征...

最新AI资源

9个月前

042.1K

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL是百度开源的超轻量级视觉-语言模型，专为文档解析场景优化。模型仅含0.9B参数，通过融合动态高分辨率视觉编码器与轻量级ERNIE语言模型，在保持高精度的同时显著降低计算开销。

最新AI资源

9个月前

064.4K

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型，实现像素级视觉语言理解。通过统一对象指代和分割能力，支持多种细粒度任务，如图像分割、视频分割、区域理解以及Pi...

最新AI资源

9个月前

051.5K

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架，基于国际音标（IPA），解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示，消除跨方言差...

最新AI资源

9个月前

051.3K

Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Kandinsky 5.0是俄罗斯AI团队开发的最新视频生成模型系列，主打轻量化设计与高性能表现。系列首款模型Kandinsky 5.0 Video Lite仅20亿参数却超越了同类14B大模型，尤其...

最新AI资源

9个月前

059.1K

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom是腾讯AI Lab联合香港中文大学（深圳）与南京大学研发的开源歌曲生成模型，解决AI音乐生成中的“塑料感”问题，实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词，即可...

最新AI资源

9个月前

051.6K

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn是专为Python开发者设计的智能代码质量分析工具，主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码，计算模块耦合度和圈复杂度等指标...

最新AI资源

9个月前

047.1K

加载更多