当前位置: 首页 > news >正文

利用腾讯开源 Hunyuan3D 2.1:在 DigitalOcean GPU Droplet 上快速搭建 3D 模型

你是否曾幻想将脑海中的创意或精美的 2D 图像,瞬间转化为能在虚拟世界中使用的 3D 模型?

在人工智能逐渐成为创意“引擎”的今天,我们见证了图像和视频生成模型(如 Flux、Hi-Dream、Wan 等)带来的巨大飞跃,它们让“所思即所得”成为可能。然而,对于渴望将这些概念带入游戏、动画、元宇宙或其他三维项目的创作者而言,“如何跨越 2D 到 3D 的鸿沟” 仍是一个巨大的挑战。

长久以来,将 2D 概念转化为高质量 3D 模型,意味着耗时耗力的手工建模过程,这需要艺术家投入如苦行僧般的耐心和技艺。但现在,这一切都改变了。

图像到 3D 建模,作为计算机视觉领域的一个颠覆性分支,正在以惊人的速度进化。我们正在进入一个新时代——一个由强大的 AI 模型驱动,能够从单张图像直接生成具备纹理和色彩的 3D 网格的时代。

在本教程中,我们将带你深入探索这一前沿技术。我们将逐步指导你,如何在 DigitalOcean GPU Droplet 上,利用开源的顶尖模型 ​腾讯 Hunyuan3D 2.1​,将你精心制作的 2D 图像转化为可用于 3D 项目的高质量模型。你将全面掌握从图像生成、环境配置到 3D 模型导出的完整流程,亲身感受 AI 如何以前所未有的速度和效率,实现你的 3D 创意。

腾讯 Hunyuan3D 2.1 模型是什么?

按照惯例,还是先介绍一下我们教程里要用到的大语言模型。

在图像到 3D 建模领域,开源的基础模型长期以来一直是一个空白。腾讯的研究人员敏锐地捕捉到了这一市场空缺,并着手填补这一日益明显的人工智能领域缺失。他们为此推出了首个 Hunyuan3D 和 Hunyuan3D 2.0 模型,一经发布便在业界引起轰动,吸引了众多工程师和开发者的关注。

为了进一步提升成果,他们最近推出了 Hunyuan3D 2.1。Hunyuan3D 2.1 是“一个全面的 3D 模型创建系统,可从单张图像输入生成带纹理的网格”。它主要由两个完全公开的基础模型组成,即 Hunyuan3D-DiT ——“一种结合了基于流的扩散架构与高保真网格自编码器(Hunyuan3D-ShapeVAE)的形状生成模型”,以及 Hunyuan3D-Paint ——“一种基于网格条件的多视角扩散模型,用于生成 PBR 材质,产出高质量、多通道对齐且视角一致的纹理”。

简而言之,在形状生成方面,他们利用 Hunyuan3D-ShapeVAE 和 Hunyuan3D-DiT 实现高质量、高保真的形状生成。具体而言,Hunyuan3D-ShapeVAE 采用网格表面重要性采样以增强锐利边缘,并使用变分 token 长度来提升复杂几何细节的表现力。Hunyuan3D-DiT 则继承了最新的先进流匹配模型,构建了一个可扩展且灵活的扩散模型。

在这里插入图片描述

上图展示了整个流程的结构。我们从一个二维对象的单张图像输入开始。首先,Hunyuan3D-DiT 接收输入并生成原始对象的高质量形状表示。接着,Hunyuan3D-ShapeVAE 利用网格表面采样来检测并增强边缘、优化几何细节,并输出 3D 形状对象。

在这里插入图片描述

在纹理合成方面,Hunyuan3D-Paint 引入了一种多视角 PBR 扩散机制,为网格生成反照率(albedo)、金属度(metallic)和粗糙度(roughness)贴图。值得注意的是,Hunyuan3D-Paint 采用了空间对齐的多注意力模块,以对齐反照率与金属度/粗糙度(MR)贴图;使用 3D 感知的 RoPE(旋转位置编码)来增强跨视角一致性;并采用光照不变的训练策略,以生成对不同光照条件鲁棒的无光照反照率贴图。Hunyuan3D 2.1 将形状生成与纹理生成分为两个独立阶段,这是一种经先前大型重建模型验证有效的更先进策略。这种模块化设计允许用户仅生成无纹理网格,或为自定义模型应用纹理,从而提升工业应用的灵活性。

使用 Hunyuan3D 2.1 从图像创建 3D 素材

设置 ​GPU​ Droplet

要实际运行该流程,我们需要一台配备足够显存(VRAM)的 GPU 服务器,以同时支持纹理绘制和 3D 建模阶段。因此,我们推荐使用 DigitalOcean Gradient 平台上的 NVIDIA GPU Droplet 云服务器(按需实例),至少配备 40GB VRAM,例如 NVIDIA L40S、A6000、H100 或 H200 GPU。如需开始配置你的 GPU Droplet 及环境,建议遵循 DigitalOcean 基础教程中的设置说明。

如果你需要进一步了解 DigitalOcean 的 GPU 按需实例或裸金属服务器,可直接咨询 DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com。

为 Hunyuan3D 2.1 创建 ​GPU​ Droplet 环境

安装运行 Hunyuan3D 2.1 所需的所有库只需几分钟。首先,我们将创建一个虚拟环境,然后克隆代码仓库、安装依赖包,并最终下载超分模型。要执行安装和下载,请将以下命令粘贴到远程机器的命令行中:

git clone https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1  
cd Hunyuan3D-2.1
vim requirements.txt # 注释掉 numpy, pymeshlab, ninja, open3D, onnxruntime, 和 bpy 的安装行
pip install -r requirements.txt 
pip install pymeshlab open3D onnxruntime ninja numpy
pip install fake-bpy-module-2.80
cd hy3Dpaint/custom_rasterizer
Python -m setup.py install
cd ../..
cd hy3Dpaint/DifferentiableRenderer
bash compile_mesh_painter.sh
cd ../..wget https://github.com/xinntao/Real-ESRGAN/releases/download/v0.1.0/RealESRGAN_x4plus.pth -P hy3Dpaint/ckpt

完成后,我们即可开始制作模型。

在 DigitalOcean ​GPU​ Droplet 上运行 Hunyuan3D 2.1 创建 3D 模型

要开始制作 3D 模型,我们首先需要启动作者提供的 Gradio 应用程序。由于环境已配置完毕,我们只需粘贴以下启动命令:

python3 gradio_app.py \--model_path tencent/Hunyuan3D-2.1 \--subfolder hunyuan3D-dit-v2-1 \--texgen_model_path tencent/Hunyuan3D-2.1 \--low_vram_mode

然后复制输出的链接,并通过 VS Code 或 Cursor 的简易浏览器功能在本地浏览器中访问该链接。

在这里插入图片描述

此时,我们将看到如上所示的 Web 图形界面。上传你选择的图像,或从右侧图库中挑选一张,并根据需要调整相关高级选项。我们建议取消勾选“随机种子”按钮以增强可控性,并增加推理步数以获得更清晰的输出。

在这里插入图片描述

在图像选择方面,我们推荐使用无背景的清晰 3D 风格图像。在我们的实验中,纯黑背景效果最佳。我们的示例使用 Imagen 4 和 Flux.1 生成,并在提示词中加入“纯黑背景,3D 风格”等标签。如果你向流程提交高质量图像,将能生成准确的形状与纹理 3D 表示。随后,我们可以按需转换并下载这些模型,支持 glb、ply、stl 和 obj 等格式。

在这里插入图片描述

该流程的局限性有两点:一是表示模型的准确性,二是无法建模 2D 对象。我们生成的模型在正面捕捉方面表现优异,但在原始输入未见的侧面常出现问题。例如,在上文示例中,我们可以看到被极度拉长的尾巴和地面平台。至于 2D 风格图像,我们发现模型需要圆润的特征和边缘才能准确将图像投影到 3D 空间,而这些特征在 2D 绘图或动画中天然缺失。因此,我们建议为 Hunyuan3D 2.1 使用“3D 风格”图像,如渲染图或照片。

结语

总体而言,Hunyuan3D 2.1 是我们目前所见 AI 领域中用于即时创建 3D 模型最强大的工具。借助它,我们可以在数小时内创建数百个 3D 模型,而过去这一过程需要数天时间。

不仅如此,像 HunyuanWorld Mirror 这样的项目甚至能仅凭图像就将你带入 3D 世界并自由漫游。我们期待看到这项技术在未来持续进步。

最后,如果你还希望进一步了解 DigitalOcean GPU Droplet 还有哪些型号的 GPU,可直接访问 DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com 的官网,或与他们的技术支持、商务团队进行咨询。

http://www.dtcms.com/a/544552.html

相关文章:

  • 【开题答辩全过程】以 多媒体素材管理系统为例,包含答辩的问题和答案
  • 聊聊高并发访问遇到过期的缓存项测试策略
  • 目标检测算法与原理(一):迁移学习
  • 第三章 线性模型
  • 【WordPress】Nova WordPress 主题:为内容创作者打造的极致体验
  • 网站一般几年创新的沈阳网站建设
  • 惠普电脑网站建设策划方案h5模板下载有哪些网站
  • 怎么做网站seo山东省旅游网站建设
  • web网页,在线%抖音,舆情%分析系统demo,基于python+web+echart+nlp+知识图谱,数据库mysql
  • 把浅色的pdf文件加深
  • Actix-Web 框架实战:构建高性能 RESTful API 服务
  • 边缘计算中针对不同类型的任务(如分类、回归)评估指标
  • 【16】C语言-编辑`task.json`文件以改变警告等级
  • Rust高性能优化与零拷贝技术深度实践
  • Linux-Redhat系统启动读取文件流程
  • React 10
  • 京东方 EV101WXM-N10 工业液晶模组技术摘要
  • Deep End-to-End Alignment and Refinement for Time-of-Flight RGB-D modules复现
  • Java-163 MongoDB 生产安全加固实战:10 分钟完成认证、最小权限、角色详解
  • MinIO 与云原生_现代化对象存储解决方案
  • 【C语言实战(63)】从0到1:51单片机GPIO控制实战秘籍
  • 金仓替代MongoDB:互联网医院聊天脱敏实战
  • 使用 ESLint + Prettier + Husky
  • mongodb备份脚本(单机+副本集)
  • 金仓数据库平替MongoDB全栈安全实战:从文档存储到多模一体化的演进之路
  • 基于k8s环境下mongodb备份恢复实战
  • 申威ky10架构安装MongoDB 4.0.1(rpm包:mongodb-4.0.1-8.ky10.sw_64.rpm)详细步骤
  • 网站建设开发语言和使用工具it培训套路
  • Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2
  • Linux小课堂: 系统硬件资源管理与设备操作指南