当前位置: 首页 > news >正文

OpenBayes 一周速览丨Self Forcing 实现亚秒级延迟实时流视频生成;边缘AI新秀,LFM2-1.2B采用创新性架构超越传统模型

公共资源速递  This Weekly Snapshots !

5 个公共数据集:

* AF-Chat 音频对话文本数据集 

* ArtVIP 机器交互式图像数据集 

* Updesh 印度语合成文本数据集 

* Medical Information 药品信息数据集 

* Nemotron-Math-HumanReasoning 数学推理数据集

6 个公共教程:

* Self Forcing 实时视频生成

* MOSS:文本到口语对话生成

* PE3R:高效感知三维重建框架

* LFM2-1.2B:高效边缘部署的文本生成模型

* AudioBox-Aesthetics 音频美学评估 Demo

* Osmosis-Structure-0.6B:结构化输出的小语言模型

访问官网立即使用:openbayes.com

公共数据集

1. AF-Chat 音频对话文本数据集

AF-Chat 数据集包含约 7.5 万个多回合、多音频对话(平均 4.6 个片段和 6.2 个回合;范围为 2-8 个片段和 2-10 个回合),涵盖语音、环境声音和音乐。该数据集根据每个音频的源数据集划分为不同的子集(声音、音乐 4ALL、百万歌曲数据集,适用于虚拟助手、客服和其他需要情感识别与响应的对话系统。

* 在线使用:

https://go.openbayes.com/Ptvi3

2. ArtVIP 机器交互式图像数据集

ArtVIP 数据集包含 26 个类别的 206 个铰接物体,涵盖家居用品、大型家具、大家电、小家电和小家具,还提供了 6 个数字孪生环境和 6 个完全交互环境,包括儿童房、饭厅、厨房、带客厅的厨房、大客厅和小客厅。它通过精确的几何网格和高分辨率纹理确保视觉真实感,通过精细调整的动态参数实现物理保真度,同时率先在资产中嵌入模块化交互行为,并实现了像素级可供性标注。

* 在线使用:

https://go.openbayes.com/rzr7h

数据集示例

3. Updesh 印度语合成文本数据集

Updesh 数据集包含 6,800,000 条推理数据及 2,100,000 条生成数据,其涉及的语言有阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、泰米尔语、泰卢固语、乌尔都语。

* 在线使用:

https://go.openbayes.com/oCUQC

4. Medical Information 药品信息数据集

Medical Information 数据集包含 44 个不同治疗类别的数据,涵盖超过 192,000 种药品,旨在提供准确、权威的药品信息、支持药物分类和治疗标签,提升临床试验管理的预测和效率。

* 在线使用:

https://go.openbayes.com/r5GCr

5. Nemotron-Math-HumanReasoning 数学推理数据集

Nemotron-Math-HumanReasoning 数据集包含来自 OpenMathReasoning 数据集的 50 道数学题、200 个人工撰写的解答,以及由 QwQ-32B-Preview 额外生成的 50 个解答。

* 在线使用:

https://go.openbayes.com/W6LIO

公共教程

1.Self Forcing 实时视频生成

Self Forcing 是一种用于自回归视频扩散模型的全新训练范式,它解决了长期存在的曝光偏差问题,即基于真实上下文训练的模型必须在推理过程中生成基于自身不完美输出的序列。该模型采用了新的处理方法,通过在训练期间执行带有键值(KV)缓存的自回归 rollout,将每帧的生成条件设定为先前自生成的输出。大量实验表明,他们的方法能够在单个 GPU 上实现亚秒级延迟的实时流视频生成,同时达到甚至超越速度明显较慢且非因果扩散模型的生成质量。

* 在线运行:

https://go.openbayes.com/6DHF9

项目示例

2. MOSS:文本到口语对话生成

MOSS-TTSD 能够将两位说话者之间的对话脚本转换为自然、富有表现力的对话语音。该模型支持语音克隆和长单段语音生成,使其成为 AI 播客制作的理想选择。

* 在线运行:

https://go.openbayes.com/BVVOI

项目示例

3. PE3R:高效感知三维重建框架

PE3R 基于多项前沿计算机视觉研究成果开发,仅需输入 2D 图像即可快速完成 3D 场景重建,在 RTX 3090 显卡上单场景平均重建时间仅需 2.3 分钟,较传统方法效率提升 65% 以上。

* 在线运行:

https://go.openbayes.com/DC5uv

项目示例

4. LFM2-1.2B:高效边缘部署的文本生成模型

LFM2-1.2B 采用了新型混合架构,创新性地结合了乘法门控和短卷积,包含 16 个块(10 个双门控短程 LIV 卷积块和 6 个分组查询注意力块),解决了传统模型在处理效率和性能上的不足。其训练基于 10 万亿 tokens 的预训练语料,采用知识蒸馏、大规模监督微调(SFT)和自定义直接偏好优化(DPO)等多阶段训练策略,在知识、数学、指令遵循和多语言能力等多个基准类别上,性能优于同规模模型,甚至能与更大参数规模的模型相竞争。

* 在线运行:

https://go.openbayes.com/AH2Sc

项目示例

5. AudioBox-Aesthetics 音频美学评估 Demo

Audiobox-Aesthetics 基于深度学习技术,实现对语音、音乐和环境声音的多维度自动分析,通过 4 个核心维度全面评估音频质量,为音频创作者、工程师和研究人员提供专业级的量化分析。

* 在线运行:

https://go.openbayes.com/uWgm8

项目示例

6. Osmosis-Structure-0.6B:结构化输出的小语言模型

Osmosis-Structure-0.6B 旨在完成结构化输出生成任务,尽管其参数规模仅为 0.6B,但与支持的框架结合使用时,该模型在提取结构化信息方面展现出卓越的性能。

* 在线运行:

https://go.openbayes.com/61Jj7

项目示例

http://www.dtcms.com/a/305549.html

相关文章:

  • cgroups测试cpu bug
  • 离线录像文件视频AI分析解决方案
  • Camera相机人脸识别系列专题分析之十九:MTK ISP6S平台FDNode传递三方FFD到APP流程解析
  • MSPM0开发学习笔记:二维云台画图(2025电赛 附源代码及引脚配置)
  • RHCA学习概述
  • 【音视频】WebRTC-Web 音视频采集与播放
  • Reflect从入门到实战
  • Java面试宝典:MySQL中的系统库
  • vue npm install卡住没反应
  • Three.js 与 React:使用 react-three-fiber 构建声明式 3D 项目
  • 深度学习(鱼书)day06--神经网络的学习(后两节)
  • Apple基础(Xcode①-项目结构解析)
  • Java 笔记 default 使用场景
  • Python 程序设计讲义(44):组合数据类型——集合类型:创建集合
  • 从0到1学PHP(七):PHP 与 HTML 表单:实现数据交互
  • HTML第一次作业
  • html的onBlur
  • VUE -- 基础知识讲解(三)
  • 鹏哥C语言_82_指针_指针数组
  • 简单线性回归模型原理推导(最小二乘法)和案例解析
  • Linux C:位运算符
  • 【前端】span和div都设置了text-align,为什么对span不起作用
  • python基础语法1,python语法元素(简单易上手的python语法教学)(课后习题)
  • 操作系统- lecture3(进程的定义)
  • LVS (Linux Virtual Server) 解析
  • 微服务消息队列之——RabbitMQ
  • 2019 年 NOI 最后一题题解
  • 智能AI医疗物资/耗材管理系统升级改造方案分析
  • Python自动化测试环境搭建
  • Linux虚拟内存