2022-ECCV-Adaptive Face Forgery Detection in Cross Domain

一、研究背景
1.伪造视频是逐帧生成的,因此会造成时间维度上的伪影。而鲁棒的检测模型需要对同一身份的不同帧有一致的检测结果。
1.利用频率线索进行deepfake检测效果良好,但也会导致帧间不一致问题,即不同帧检测结果不同。
2.以往方法中固定的分类超平面不能准确地分割所有帧的类别。

二、研究目标
1.提高预测结果的稳定性和一致性,以进一步提高检测算法的性能。
2.根据单个实例自适应地调整鉴别中心并进行预测。

三、技术路线
在这里插入图片描述
1.Dual-domain Intra-Consistency Module:通过挖掘帧间相关表征以及域间互补线索来获取潜在一致性。

  • 频域变换:经DCT、IDCT得到频域特征

    {

    F

    1

    H

    ,

    ,

    F

    n

    H

    }

    {F^{H}_1,dots,F^{H}_n}

    {F1H?,…,FnH?}

  • 序列求和:经元素级求和得到序列级共有特征

    S

    H

    S^H

    SH,以增强帧间共有特征,减轻噪声特征
    在这里插入图片描述

  • 注意力:利用channel-wise SoftAttention为每个实例提取注意力特征嵌入

    A

    ˉ

    i

    H

    ar{A}^H_i

    AˉiH?
    在这里插入图片描述
    在这里插入图片描述

  • RGB支路:融合频域特征后进行相似操作
  • 特征拼接:拼接频域序列

    {

    F

    1

    H

    ,

    ,

    F

    n

    H

    }

    {F^H_1,dots,F^H_n}

    {F1H?,…,FnH?}和RGB序列

    {

    F

    1

    ,

    ,

    F

    n

    }

    {F_1,dots,F_n}

    {F1?,…,Fn?}

2.Instance-Discrimination Module:根据输入实例动态调整超平面的位置,令特征分布更广,正负区分度更大。
在这里插入图片描述

  • 利用SoftMax+FC进行可能性预测:
    在这里插入图片描述
  • 利用normalized SoftMax中的

    w

    o

    w_o

    wo?、

    w

    1

    w_1

    w1?表征鉴别中心
    在这里插入图片描述

  • 利用FC、BN、ReLU为

    w

    o

    w_o

    wo?、

    w

    1

    w_1

    w1?提取偏置

    b

    r

    b_r

    br?、

    b

    f

    b_f

    bf?

  • 利用Instance-Discrimination SoftMax进行可能性预测:
    IDM会根据每个单独的实例来调整鉴别中心
    在这里插入图片描述
  • 数学推导

    ?

    epsilon

    ?可看作自适应边界,与以往固定的positive margin不同,

    ?

    epsilon

    ?可正可负
    在这里插入图片描述

四、实验结果
在这里插入图片描述
在这里插入图片描述