舞蹈AI革新！清华大学推出Lodge，长序列舞蹈生成的新高度，CVPR

引言：探索音乐驱动的长时舞蹈生成

在数字娱乐和虚拟现实的时代，音乐驱动的舞蹈生成技术正变得日益重要。从电影制作到游戏开发，再到为舞蹈设计师提供灵感和提高生产力，高质量且多样化的3D舞蹈动作自动生成解决方案的需求不断增长。尽管近年来生成性AI技术取得了飞速发展，现有的方法已经能够生成几秒钟的舞蹈，但现实应用中的舞蹈往往需要持续数分钟甚至更长时间。因此，生成极长舞蹈序列成为了一个新的挑战。

然而，长时舞蹈生成面临着巨大的挑战，尤其是在计算资源需求方面。许多现有方法基于自回归模型，并且在相对较小的滑动窗口中连续生成舞蹈动作。这种自回归的特性随着时间的推移积累了模型预测误差，并阻碍了模型学习全局编舞模式，导致几秒钟后就会出现动作冻结的现象。此外，一些方法虽然维持了一个用于表示动作的潜在空间，但由于潜在空间的表征能力有限，这些方法也容易过拟合，导致泛化能力和多样性差。

为了解决这些问题，我们提出了Lodge，一个能够在给定音乐条件下生成极长舞蹈序列的网络。Lodge采用了两阶段的粗到细扩散架构，并提出了具有显著表现力的特征舞蹈原语作为两个扩散模型之间的中间表示。我们的方法能够在平衡全局编舞模式和局部动作质量及表现力之间，平行生成极长的舞蹈序列。通过广泛的实验验证了我们方法的有效性。

论文标题：Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

机构：清华大学，鹏城实验室，Meshcapade，北京师范大学

论文链接：https://arxiv.org/pdf/2403.10518.pdf

项目地址：https://li-ronghui.github.io/lodge

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

Lodge框架概述：从全局到局部的粗细粒度舞蹈生成

1. 全局扩散：理解音乐与舞蹈的粗略关联

Lodge框架的全局扩散阶段旨在理解音乐与舞蹈之间的粗略关联，并生成特征舞蹈原语。这些原语是表达性的8帧关键动作，具有高运动动能。全局扩散通过Transformer网络处理长音乐输入，产生稀疏的舞蹈原语，这些原语随后被进一步增强以与音乐的节拍和结构信息对齐。全局扩散的关键在于捕捉音乐与舞蹈的全局编排模式，为后续的局部扩散提供指导。

2. 局部扩散：生成细节丰富的舞蹈动作序列

局部扩散阶段则专注于生成细节丰富的舞蹈动作序列。在这一阶段，系统并行地生成短舞蹈片段，每个片段都由自动选择的舞蹈原语引导，确保片段开始和结束之间的一致性。这些片段可以被拼接成连续的长舞蹈，同时在其他舞蹈原语的指导下，每个舞蹈片段的质量、表现力和多样性得到增强。此外，Lodge框架引入了一个足部优化模块，以优化脚部与地面的接触，增强动作的物理真实性。

特征舞蹈原语的提出与应用

1. 特征舞蹈原语的定义与优势

特征舞蹈原语是Lodge框架中的一个创新概念，定义为具有显著表现力的8帧关键动作。这些原语的优势在于它们的稀疏性，减少了计算需求；它们包含丰富的语义信息，能够传递编排模式；它们具有表现力的运动特征，可以指导运动扩散模型生成。

2. 如何通过特征舞蹈原语指导舞蹈生成

在Lodge框架中，特征舞蹈原语作为两个扩散模型之间的中间表示。全局扩散阶段生成的舞蹈原语被分类为硬提示关键动作和软提示关键动作，它们通过不同的扩散引导策略来指导局部扩散。硬提示关键动作用于局部扩散的开始和结束部分，确保并行生成的舞蹈片段可以无缝连接。软提示关键动作则用于提高舞蹈质量，增加舞蹈的表现力。通过这些原语的引导，Lodge能够生成既符合编排规则又保留局部细节和物理真实性的长舞蹈序列。

脚部细化模块：增强舞蹈动作的物理真实性

在舞蹈动作的生成中，脚部与地面的接触是评估动作物理真实性的关键因素之一。为了提升生成舞蹈动作的物理真实性，我们提出了一个脚部细化模块（Foot Refine Block）。该模块的设计灵感来源于现有的研究[62]，旨在优化脚部与地面的接触，消除诸如滑步（foot-skating）、悬浮（floating）和地面穿透（ground inter-penetration）等不真实的现象。

在复杂的舞蹈动作中，仅仅使用与脚部相关的损失函数[59]来优化SMPL格式[28]的运动旋转数据往往难以达到理想效果。这是因为优化目标存在于线性关节位置空间，而SMPL格式的旋转数据主要在非线性旋转空间中，两者之间的领域差异阻碍了损失函数的收敛。因此，我们计算脚部接触信息，并利用脚部细化模块生成修正值来解决滑步问题。

具体来说，我们首先通过前向运动学计算脚部关键点的位置，然后计算脚部速度。接着，我们根据脚部与地面的接触评分来优化脚部运动。当脚部与地面接触时，我们通过解耦脚部的水平速度和垂直速度，并优化水平速度（fhv）和向下的垂直速度（fdv）为0。我们还引入了一个多风格鉴别器（Multi Genre Discriminator），以确保舞蹈风格与音乐风格的一致性。

通过这些方法，我们的脚部细化模块显著提高了运动质量（FIDk），尤其是脚部滑动比率（Foot Skating Ratio）从5.94%降低到5.01%，证明了我们提出的脚部细化模块能够有效提升脚部与地面接触的质量，减少滑步现象的发生。

实验设置：数据集介绍与实验细节

1. 数据集

我们使用公开的音乐-舞蹈配对数据集FineDance[26]和AIST++[25]来验证我们的方法。FineDance数据集由专业舞者表演，并通过光学运动捕捉系统捕获数据。该数据集包含7.7小时的舞蹈数据，总计831,600帧，帧率为30 fps，包括16种不同的舞蹈风格。FineDance数据集的平均舞蹈长度为152.3秒，而AIST++数据集的平均长度为13.3秒。因此，我们使用FineDance数据集来训练和测试长期舞蹈生成算法。我们在FineDance数据集的测试集中测试了20首音乐，并生成了1024帧（34.13秒）的舞蹈序列。

AIST++是另一个广泛使用的舞蹈数据集，包含5.2小时的舞蹈数据，帧率为60 fps，包括10种舞蹈风格。

2. 实验细节

在FineDance数据集上的实验中，全局音乐特征长度N为1024，对应34.13秒；局部音乐特征长度n为256，对应8.53秒。全局扩散输出13个特征舞蹈原语，其中5个为dh，8个为ds。在编排增强操作后，ds被镜像产生16个实例，并与音乐的节拍对齐。全局扩散和局部扩散的优化器使用Adan[54]，我们使用指数移动平均（EMA）[23]策略使损失收敛过程更稳定。学习率为1e-4。在推理阶段，我们有两种扩散采样策略DDPM[13]和DDIM[45]可用于生成舞蹈。在AIST++数据集上，我们将舞蹈下采样到30 fps进行训练。然后我们以30 fps生成舞蹈。最后，我们将输出的舞蹈插值到60 fps，并遵循Bailando[43]的实验设置进行测试。由于AIST++的音乐-舞蹈数据被分割成许多短片段，因此我们将全局音乐特征长度N改为256，全局音乐特征长度n改为128。

与现有技术的比较：Lodge与其他舞蹈生成方法的对比

在舞蹈生成领域，Lodge提出了一种新颖的两阶段粗到细的扩散架构，用于生成与给定音乐条件下的极长舞蹈序列。与现有技术相比，Lodge的独特之处在于其对全局音乐-舞蹈关联的理解和特征舞蹈原语的生成。现有的自回归模型如FACT[25]和MNET[22]在生成舞蹈时，由于模型预测误差的累积，常常在几秒后出现动作冻结现象[57]。而基于VQ-VAE的方法如Bailando[43]虽然能够优化节奏，但受限于表示能力有限的编码本，导致泛化能力和多样性较差。最近的基于扩散的方法EDGE[50]虽然在生成短舞蹈片段方面表现出色，但其舞蹈缺乏整体的编排结构，在拼接点处表现出不连贯。

Lodge的设计灵感来源于舞蹈设计师的工作方式，他们通常会先分析音乐的属性，创造出具有强烈表现力的“舞蹈短语”。Lodge提出的特征舞蹈原语正是基于这种思路，它们是具有高运动能量的8帧关键动作，不仅信息丰富、能够传递编排模式，而且计算需求较低。在全局扩散阶段，Lodge利用这些舞蹈原语作为中间表示，生成与音乐节奏和结构信息对齐的舞蹈。在局部扩散阶段，Lodge并行生成详细的舞蹈片段，并通过舞蹈原语的引导来增强每个片段的质量、表现力和多样性。

此外，为了提高运动的真实感并消除足部滑动的问题，Lodge引入了一个足部细化模块。这一模块优化了足部与地面的接触，增强了运动的物理真实性。通过这些方法，Lodge能够在保持全局编排模式和局部运动质量之间的平衡的同时，并行生成极长的舞蹈序列。

局限性与未来工作：Lodge的局限性及未来研究方向

1. 局限性

尽管Lodge在长时舞蹈生成方面取得了显著的进展，但它仍然存在一些局限性。首先，Lodge目前无法生成包含手势或面部表情的舞蹈动作，这些元素对于表演来说同样至关重要。其次，Lodge在生成连贯性和表现力方面依赖于特定的舞蹈原语（Characteristic Dance Primitives），这可能限制了舞蹈的多样性和创造性。此外，尽管Lodge采用了Foot Refine Block来优化脚部与地面的接触，减少了滑步现象，但在更复杂的舞蹈动作中，优化目标与数据表示之间的领域差距仍然是一个挑战。

2. 未来工作

未来的研究方向可以包括扩展Lodge以支持手势和面部表情的生成，进一步提升舞蹈动作的真实感和表现力。此外，研究者们可以探索新的方法来缩小优化目标与数据表示之间的领域差距，以进一步提高脚部接触质量和减少滑步现象。还可以考虑开发新的算法来增强舞蹈的多样性和创造性，同时保持全局编排模式和局部动作质量的平衡。最后，随着计算资源的提升，未来的工作可以探索更高效的训练和推理方法，以支持更长时间、更复杂的舞蹈序列的生成。

总结：Lodge在长时舞蹈生成中的创新与贡献

Lodge作为一个能够生成与给定音乐条件下的极长舞蹈序列的网络，通过其两阶段粗到细的扩散架构，提出了作为两个扩散模型之间中间表示的特征舞蹈原语，展现了显著的表现力。Lodge的全局扩散阶段专注于理解粗粒度的音乐-舞蹈相关性，并生成特征舞蹈原语，而局部扩散阶段则在舞蹈原语的指导下并行生成详细的动作序列。此外，Lodge引入了Foot Refine Block来优化脚部与地面的接触，增强了动作的物理真实性。

Lodge的方法能够并行生成极长的舞蹈序列，实现了全局编排模式与局部动作质量和表现力之间的平衡。通过广泛的实验验证了该方法的有效性，Lodge在长时舞蹈生成方面的创新和贡献得到了充分的展示。尽管存在一些局限性，Lodge的提出为未来在长时舞蹈生成领域的研究提供了新的方向和可能性。

(责任编辑：)

搜索

热门标签:

舞蹈AI革新！清华大学推出Lodge，长序列舞蹈生成的新高度，CVPR