当前位置：首页 > news >正文

MinerU系列最新迭代版本上线，专为高精度、高效率的文档解析任务设计；清华、字节联合推出HuMo，实现三模态协同生成人物视频

news 2025/10/25 12:47:40

公共资源速递

This Weekly Snapshots ！

6 个公共数据集：

* HPL Benchmark 超算性能基准测试

* gromacs_benchmark 基准测试数据集

* CP2K_Benchmark 性能基准测试数据集

* LAMMPS-Bench 分子动力学基准数据集

* Gatk_benchmark 基因组分析示例数据集

* Smilei_Benchmark 等离子体动力学模拟基准测试数据集

9 个公共教程：

OCR * 2

AI4S * 2

多模态 * 5

访问官网立即使用：openbayes.com

公共数据集

1. HPL Benchmark 超算性能基准测试

HPL 是一个软件包，用于在分布式内存计算机上，用双精度（64 位）算术求解一个（随机生成的）稠密线性方程组。因此，它可以被看作是一个可移植、并且可自由获取的高性能计算 Linpack 基准测试的实现。

* 在线使用：

https://go.openbayes.com/2UacD

2. gromacs_benchmark 基准测试数据集

该数据集所有的基准测试都源自研究团队的科研项目，涵盖从 6k 到 1200 万原子规模的典型模拟体系。除 benchPEP-h 外，所有标准基准都使用全键约束（all bonds constraints），这意味着更新步骤必须在 CPU 上完成。

* 在线使用：

https://go.openbayes.com/322QY

3. CP2K_Benchmark 性能基准测试数据集

CP2K Benchmark 数据集是一套专门为高性能计算（HPC）环境设计的性能测试与验证输入集合。该数据集来自开源第一性原理模拟软件 CP2K，用于评估在不同硬件平台、并行策略（MPI/OpenMP）和编译优化设置下，量子化学与分子动力学计算的性能表现。

* 在线使用：

https://go.openbayes.com/mhvMX

4. LAMMPS-Bench 分子动力学基准数据集

LAMMPS Benchmark 数据集用于测试和比较 LAMMPS（分子动力学模拟软件）在不同硬件或配置上的性能表现。这些数据集并不是科学实验数据，而是用来评估计算性能（speed、scaling、效率）的，包含特定体系结构、力场文件、输入脚本、初始原子坐标等内容，由 LAMMPS 官方在 bench/ 文件夹中提供。

* 在线使用：

https://go.openbayes.com/mhqOY

5. Gatk_benchmark 基因组分析示例数据集

GATK（Genome Analysis Toolkit）是一个生物信息学工具包，该项目的目标是为高通量测序（NGS, Next Generation Sequencing）数据提供一套标准化的分析流程。GATK 是目前基因组学领域最常用的分析框架之一，被广泛应用于人类全基因组测序、癌症基因组研究和精准医疗中。

* 在线使用：

https://go.openbayes.com/ZbCOU

6. Smilei_Benchmark 等离子体动力学模拟基准测试数据集

Smilei 是一个开源、易于使用的电磁粒子 - 网格（Particle-In-Cell, PIC）代码，旨在为激光 – 等离子体相互作用、粒子加速、强场 QED 和空间物理等领域提供一个高精度、高性能、可扩展的等离子体动力学模拟平台。该数据集包含一系列经过验证的标准化模拟输入脚本（Python namelist），这些测试脚本采用 .py 格式编写，结构与用户实际模拟输入完全一致，可直接运行于编译好的 smilei 可执行程序上。

* 在线使用：

https://go.openbayes.com/YFo9L

公共教程

OCR * 2

1. Dolphin 多模态文档图像解析

Dolphin 基于先解析结构后解析内容的两阶段方法第一阶段生成文档布局元素序列，第二阶段用元素作为锚点并行解析内容。该模型在多种文档解析任务上表现出色，性能超越 GPT-4.1、Mistral-OCR 等模型。

* 在线运行：

https://go.openbayes.com/L7Q3j

效果展示

2. MinerU2.5-2509-1.2B：文档解析 Demo

MinerU2.5-2509-1.2B 专为高精度、高效率的文档解析任务而设计。它是 MinerU 系列的最新迭代版本，聚焦于将 PDF 等复杂格式文档转化为结构化的机器可读数据（如 Markdown、JSON 等）。

* 在线运行：

https://go.openbayes.com/uMs35

项目示例

AI4S * 2

1. BindCraft：蛋白质粘合剂设计

BindCraft 直接调用 AlphaFold2 预训练权重，无需高通量筛选、实验迭代，甚至无需已知结合位点，即可在硅片中生成纳摩尔级亲和力的从头结合剂。实验已验证对细胞表面受体、常见过敏原、全人工蛋白及 CRISPR-Cas9 等多域核酸酶均有效。

* 在线运行：

https://go.openbayes.com/kvNI1

2. Ml-simplefold：轻量级蛋白质折叠预测 AI 模型

Ml-simplefold 基于流匹配（Flow Matching）技术，跳过多序列比对（MSA）等复杂模块，直接从随机噪声生成蛋白质的三维结构，大幅降低计算成本。在 CAMEO22 和 CASP14 等权威基准测试中，SimpleFold 表现出色，无需昂贵的多序列比对和三角注意机制，能达到与顶尖模型（如 AlphaFold2、RoseTTAFold2）相当的性能，且小规模版本（如 SimpleFold-100M）同样具有高效性和竞争力。

* 在线运行：

https://go.openbayes.com/Fb6v7

多模态 * 5

1. LiveCC：实时视频解说大模型

LiveCC 是一个专注于大规模流式语音转录的视频大语言模型项目，该项目旨在通过创新的视频—自动语音识别（ASR）流式方法训练出首个具备实时评论能力的视频大语言模型，在流式和离线基准测试中均达到了当前最优（SOTA）水平。

* 在线运行：

https://go.openbayes.com/qbIJv

项目示例

2. HuMo-1.7B：多模态视频生成框架

HuMo 能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。该模型支持强大的文本提示跟随能力、一致的主体保留以及音频驱动的动作同步。支持从文本-图像（VideoGen from Text-Image）、文本-音频（VideoGen from Text-Audio）以及文本-图像-音频生成视频（VideoGen from Text-Image-Audio），为用户提供了更高的定制化和控制能力。

* 在线运行：

https://go.openbayes.com/gMJQB

项目示例

3. NeuTTS-Air：轻量高效语音克隆模型

NeuTTS-Air 基于 0.5B Qwen LLM 主干和 NeuCodec 音频编解码器构建，在 on-device 部署和即时语音克隆上展现少样本学习能力。系统评估显示，NeuTTS Air 在开源模型中达到 SOTA 水平。该模型还能泛化到嵌入式代理和风格迁移等新场景，支持 3 秒音频克隆，并生成自然对话内容。后训练引入 GGML/ONNX 支持和水印机制，在 on-device TTS 和功耗优化评测中领先开源领域，部分场景媲美闭源模型。

* 在线运行：

https://go.openbayes.com/18lyM

效果展示

4. Hunyuan3D-Part：组件式 3D 生成模型

Hunyuan3D-Part 由 P3–SAM 和 X–Part 组成，首次实现高精度、可控的组件式 3D 生成，支持 50+ 组件自动生成。用户可先用混元 3D 2.5 或 3.0 生成整体 Mesh，再由 P3–SAM 进行自动、精确的组件分割，X–Part 将其分解为独立部件，输出高保真、结构一致的部件几何体，同时保持灵活可控性。该模型在游戏建模、3D 打印等领域都有广泛应用，如将汽车模型拆分车身和轮子，便于游戏绑定滚动逻辑或 3D 打印分步制作。

* 在线运行：

https://go.openbayes.com/rZthp