Adaptively sharing multi-levels of distributed representations in multi-task learning

期刊:Information Sciences” (Wang 等, 2022, p. 226)

计算机科学1区top。2022年

题目:

“多任务学 习 中 自 适 应 共 享 多 级 分 布 式 表 示” (pdf)

“Adaptively sharing multi-levels of distributed representations in multi-task learning” (Wang 等, 2022, p. 226) (pdf)

image

“如图 1(a)(b)。这些模型的关键共性是它们的设计模式,即对 DNN 的较低层使用共享层( 相同参数),然后对顶层使用分裂( 独立参 数)” (Wang 等, 2022, p. 2) (pdf)

本文提出 的

“也就 是说 ,当 任务 相关 性较 低时 ,我 们期 望它 为相 对较 浅的 子网络 分配更高的权 重,对应 更一般的 特征。当 任务高度 相关时, 我们期望 它为相对 深度的子 网络分配 更高的 权重” (Wang 等, 2022, p. 3) (pdf)

塔网络

“塔 式 网 络 建 立 在共 享 的 底 层 网 络 的 顶 部 , 每 个 任务 都 有 自 己 的 塔 式 网 络” (Wang 等, 2022, p. 5) (pdf)

“通常,塔式网络由多个完全连接的层组成” (Wang 等, 2022, p. 5) (pdf) ??通常,塔式网络由多个完全连接的层组成??

“使 用 塔 式网 络 的 主 要 原 因有 两 个:” (Wang 等, 2022, p. 5) (pdf) ??使用塔式网络的主要要因有两个:??

“1.不同任务的输出 维 度可 能 不 同。 塔 式网 络 对 每个 任 务 的维 度 进 行转 换 。

2. 特定任务的塔式网络增强了建 模任务关系[6] 的能力 。” (Wang 等, 2022, p. 5)

实验:

“我们进行实验来回答 以下问题:” (Wang 等, 2022, p. 5) (pdf) ??我们进行实验来回答以下问题:??

1. “PRN 在任务关系建模方面是否有效” (Wang 等, 2022, p. 5) (pdf) ??PRN 在任务关系建模方面是否有效??

2. “(Q2)特定于任 务 的 残 差 连 接 如 何对 性 能 做 出 贡 献?” (Wang 等, 2022, p. 5) (pdf)

衡量指标:

mae

“平均绝对误差(MAE)” (Wang 等, 2022, p. 7) (pdf) ??平均绝对绝对值(MAE)??

参数设置

“为了缓解过拟合问题,我们在 ML P 中使用了 L2 re gulariza tion,和 dropout。这两种方法中的超参数也对所有模型进 行了调优” (Wang 等, 2022, p. 8) (pdf) ??为了解决上述问题,我们在 ML P 中使用了 L2 正则化和 dropout。这两种方法中的超参数也对所有模型进行了调优??

模型对比

image

基线

包括了“Shared-Bottom” (Wang 等, 2022, p. 7) (pdf) ,L2,十字绣,tensor-factorization,routing,“MMoE” (Wang 等, 2022, p. 7) (pdf)

总结:

  • 多任务的,相关高的可以在高层中进行共享,相关低的的在底层进行共享,对小数据集进行了优化测试。

  • 这是一个基于残差网络-的网络结构。

  • 多任务的基线对比

  • 塔网络。

  • 最后的消融实验,可以用于参考写论文。

  • 更了解了多任务学习。