MoshiVis: модель с открытым исходным кодом для речевого диалога в реальном времени и понимания изображений
Общее представление MoshiVis - это проект с открытым исходным кодом, разработанный Kyutai Labs и размещенный на GitHub. Он основан на модели преобразования речи в текст Moshi (7B параметров), с примерно 206 миллионами новых параметров адаптации и замороженными Pal...

































































































