FaceAntiSpoofing

2019-02-20 DL PV:

1 综述

Face anti-spoofing detection 就是人脸的攻击检测。

1.0 时代：早期利用传统的handcrafted特征进行检测，目标很明确，就是找到活体和非活体之间的差异，其中包括颜色纹理，非刚性运动变形，材料（皮肤，纸质，镜面），图像或者视频质量。因为这种方法不是本文重点，所以就不列举相关论文了。
1.0 时代：继CNN兴起以来，就有人开始在人脸的活体检测尝试，并取得了越来越突出的成绩，但是笔者认为最大的瓶颈在于公开大型数据集的缺失，使得这一领域进展速度有限，也确实数据集的制作成本偏高。

2 模型

2.1 Face anti-spoofing using patch and depth-based CNNs

从上图就能了解论文中的方法，最大的亮点在于把人脸深度作为一个差异特征。这种思想在后续的文章中得到了进一步的运用。

2.2 Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision

这篇2018CVPR的论文也利用了人脸深度信息，并结合rPPG信号和主流的CNN+RNN方法。最大的亮点在于设计了Non-rigid Registration Layer来对其各帧人脸的非刚性运动，然后通过RNN更好的学习temporal pulse信息。整体的框架如下：

文章指出：过去的方法把活体检测看成是一个二分类的问题，直接让CNN去学习，这样学出来的cues不够general和discriminative。所以文章将二分类问题转化为带目标性的监督问题，即回归初rPPG的统计量和Depth map，保证网络学到的是这两种特征再进行区分。

2.3 Face De-Spoofing: Anti-Spoofing via Noise Modeling

与上面两篇文章一样，都出自于MSU同一位作者。文章的想法源自于图像去噪(de-noise)和去抖动(de-blur)。无论是哪种都可以看成是原图上加噪声运算或者模糊运算，而去噪和去抖动就是估计噪声分布和模糊核，从而重构原图。简而言之，论文就是要利用攻击人脸的噪声来判断。整个框架如下：

不得不说，作者整个模型架构设计得相当精妙。整个框架分为3个部分DS-NET (De-Spoof Network), VQ-NET (Visual Quality Net), DQ-NET(Discriminative Quality Net)。其中DS是核心，利用encoder-decoder来得到 Spoof noise N，然后为了是N最大限度的贴近真实，利用VQ和DQ进行有效的监督。VQ相当于一个GAN模型的判别器，DQ就是利用去噪图像 $\hat{I}$ 获得一个深度图，跟上一篇的思想接近。
在训练过程中，loss函数的项目也比较多，因为约束的东西比较多。具体还请看论文，也比较容易理解。
可视化如下图
总体来说，文章的idea还是不错的。但是笔者认为这个在工业上效果也许不是很好，因为工业上因为传输等问题，图像不会有那么好的效果。