ECCV2018论文解读：用回归方法判断热度图中的人体姿态

2018-07-12 4,225 0

导语

本文提出一种积分回归的方法用于人体姿势估计任务，该途径结合了基于热度图的方法和回归方法的优点，可以方便地应用于并改进任何基于热度图的模型。本文通过综合性实验全面验证了该方法的有效性，并表明在2D和3D的人体姿势估计数据集MPII、COCO、Human3.6M中，本方法都取得当前最好的结果。该论文据悉已被计算机视觉顶会 ECCV 2018 接收。下面是对这篇论文的解读。

论文标题：Integral Human Pose Regression

论文地址：https://arxiv.org/pdf/1711.08229.pdf

作者：Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, Yichen Wei（孙骁，肖斌，尉方音，梁爽，危夷晨）

1．人体姿势估计的两类方法

人体姿势估计主要分为基于检测（detection-based）的方法和基于回归（regression-based）的方法：

基于检测的方法是基于热度图的，对每个关节都生成所有位置的似然热度图，选择概率最大的位置作为该关节的位置。这种方法的缺点是：（1）取概率最大值的操作是不可微分的，所以无法使用端到端的训练方法；（2）由于深度神经网络的降采样操作，热度图的分辨率远低于输入图片的分辨率，这将导致不可逆的量化误差，关节位置的精度会因此受到限制。而使用更高分辨率的热度图，会产生更多的内存和计算开销。

来源：coco

另一种观点是把姿势估计看作一个回归问题，它的优点是可以端到端地学习，并产生连续的输出。然而，基于回归的方法的实际效果仍不如基于检测的方法。

2．积分姿势回归

本文的工作是结合了热度图的表示和关节回归两种方法，提出了积分回归（integral regression）的方法：将热度图中“取最大值”的操作（即选择热度图中概率最大的关节位置）

换成“取期望”的操作（即估计的结果是热度图中所有位置的积分）

关节的位置通过热度图中所有位置的基于概率（归一化后）的积分来估计。这种方法称为积分姿势回归，它的操作是可微分的，所以能够端到端地训练。积分回归享有热度图表示和回归两种方法的优点，同时避免了它们的缺点。

2.1 2D和3D数据的混合训练

3D姿势估计的一个严重问题是缺乏大量的可训练数据，结合2D数据和3D数据一起训练是一个努力的方向。由于积分操作的可微分性，积分回归方法可以自然地采用这种混合训练方式。

本文把上述的积分操作分解成两个步骤：（1）分别独立地生成x、y、z上的一维热度图；（2）在一维热度图上积分产生相应的x、y、z的一维关节坐标。因为x、y、z被分解了，所以可以直接地混合使用2D和3D的训练数据。实验表明该方法可以极大地提高3D姿势估计的精度。

2.2 实验方法学

积分回归方法是免参数的，只是将热度图的表示转换成关节的位置，不影响其他算法的设计和选择。所以，它可以和其他的算法设计——不同的任务、热度图和关节的损失函数、网络结构、图片和热度图的分辨率——结合起来。下图是人体姿势估计方法的流程和实验中可以选择的设置。

任务：2D和3D的姿势估计任务、混合的2D和3D数据同时训练

网络结构：主要分为主干网络（backbone network）和头网络（head network）。主干网络一般是卷积网络，目的是从图片中抽取特征；而头网络从之前的特征中估计目标输出（热度图或关节）。

热度图的损失函数：均方误差、mxm的交叉熵损失函数、二值分布的交叉熵损失函数。

热度图和关节损失的结合：在关节坐标的损失函数上，可以选择L1距离或L2距离等。关节的损失函数中可以包括或不包括热度图的损失，积分回归的方法中，包括或不包括都有不错的结果。

图片和热度图的分辨率：通常更高的位置精度需要图片和热度图有更高的分辨率。积分回归方法对图片和热度图的分辨率的鲁棒性更好。

３．实验方法与数据

3.1 模型与训练

在以下3个数据集上，使用的模型和训练方法是相似的。提取特征的主干网络采用了ResNet或HourGlass模型。计算输出的头网络是全卷积的，它首先使用反卷积在特征图上进行上采样（upsampling）到需要的分辨率，输出通道的个数是固定的256；然后，用1×1的卷积层产生K个热度图。同样，我们也把最广泛的使用全连接层计算关节位置的输出方法作为基本对比。

同样，本文采用了简单的多阶段（multi-stage）体系结构，使用了Adam的优化方法，归一化输入图片为256×256，采用随机的平移、缩放、旋转和翻转来扩大数据集等。

3.2 MPII数据集

MPII是单人2D姿势估计的数据集，图片是从YouTube视频中收集的，覆盖了人类的日常活动，包括复杂的姿势和图片外观。一共大约2万5千张图片。在评估中，使用正确估计的关键点的比例（Percentage of Correct Keypoints, PCK）作为度量。一个关键点的估计值同真实位置的距离小于头部长度的某个比例a时，被认为是正确估计的，该评估方法称为PCK@a。

传送门：

http://human-pose.mpi-inf.mpg.de/

积分回归的影响

表1是实验的对比结果，其中，I*、I1、I2、I3是积分回归的方法，H1，H2，H3是基于热度图的方法，R1是直接回归的方法。这样的结果表明了热度图和关节的联合训练是有效的。尤其，I*的表现也不错，仅次于I1、I2、I3（I*指的是只使用了关节的损失没有包括热度图的损失），这是由于I*用于回归的特征更好，优于直接回归，因为I* 和直接回归方法R1的监督信号和网络结构都是相同的。

我们可以得出两个结论：（1）使用潜在的热度图特征的积分回归是有效的（I*>H, I*>R），即使在不使用热度图监督的情形下；（2）热度图和关节位置预测的联合训练结合了两种范式的优点，表现最好（I>H,R,I*）。

表1. MPII数据集上，各种方法的对比结果。其中，I*、I1、I2、I3是积分回归的方法，H1，H2，H3是基于热度图的方法，R1是直接回归的方法。

分辨率的影响

如表2所示，比较了在两种方法（H1/I1），两种输入图->特征图的分辨率和两种热度图尺寸（使用3或2个上采样层）情形下，性能（mAP@0.5, map@0.1, AUC）、计算（FLOPs）和网络参数个数的结果。毫无疑问，使用更大的图片尺寸和热度图尺寸可以获得更好的精度。然而，积分回归方法（I1）相比于基于热度图的方法（H1），更少受到分辨率的影响。所以，当计算能力有限、需要小分辨率时，积分回归方法更加适合。

所以，我们得出结论：积分回归方法能够极大地减轻基于热度图方法带来的量化误差或需要大分辨率的问题。