云知声-中国科学技术大学3篇论文入选国际顶会ACM MM 2023

2023-08-24 13:54

近日，国际顶会ACM MM 2023正式放榜，云知声与中国科学技术大学於俊老师团队共同完成的3篇论文入选，成果覆盖人类对话参与度估计、VTQA挑战、幽默检测等研究方向；其基于3篇论文所构建的3个系统也在Grand Challenge中获得1个冠军、2个季军，充分展现了云知声在多模态拓展领域的技术能力和学术成果的同时，也为夯实云知声AGI技术基座再添助力。

ACM MM（ACM International Conference on Multimedia）始于1993年，是计算机图形学与多媒体领域的顶级国际会议，也是中国计算机学会推荐的多媒体领域A类国际学术会议。本届ACM MM有效投稿量达3072篇，接收论文902篇，接收率约为29.3%。

此次获得国际顶会认可，既是云知声与中国科学技术大学通力合作、持续探索多模态拓展技术的结果，也离不开云知声AGI技术架构的有力支撑。

云知声AI技术体系及U+X战略

作为中国AGI技术产业化的先驱之一，云知声于2016年打造Atlas人工智能基础设施，并构建公司云知大脑(UniBrain)技术中台，以山海（UniGPT）通用认知大模型为核心，包括多模态感知与生成、知识图谱、物联平台等智能组件，并通过领域增强能力，为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑，推动“U(云知大脑)+X(应用场景)”战略落实，践行公司“通过通用人工智能(AGI)创建互联直觉的世界”的使命。

作为云知大脑（UniBrain）的重要组件，多模态拓展技术目前已广泛应用于智能家居、车载、客服等领域，包括多模态感知、多模态生成等。此次论文收录，充分印证了云知声在多模态拓展领域的技术创新实力，也将进一步夯实其AGI技术底座，推动山海大模型在各领域的广泛应用。

接下来，云知声将继续携手中国科学技术大学，加强基础理论和关键技术的研发，并以此为支撑，持续推进“U+X”战略，不断拓展AGI应用场景，加速千行百业的智慧化升级，为人们的生活带来更多便利和智能体验。

以下为入选论文及参赛系统概览：

人类对话参与度估计

人类对话中的参与度估计一直是人与机器交互中最重要的研究课题之一。

然而，以往的数据集和研究主要集中在video-wise level的参与度估计，因此难以反映人类不断变化的参与度。在ACM MM上举办的MultiMediate '23 挑战赛提供了frame-wise level参与度估计的任务。

这个任务的输入和输出序列非常长（至少 10,938 帧或更多），而 RNN 难以处理这种超长输入序列。Baseline建议使用多层感知器网络 (MLP)，为每一帧输入的特征输出相应的参与度，即Point2Point（P2P），但这通常会导致大量视频上下文语义信息的丢失。

在本文中，我们利用Bi-LSTM和Transformer强大的序列建模能力，提出了Sliding Window Seq2seq Modeling for Engagement Estimation。

该方法充分利用了参与者视频中的全局和局部多模态特征信息，并能准确表达参与者在每个时刻的参与情况。具体来说，我们从参与者的视频中使用OpenFace2.0、OpenPose、Microsoft Kinect sensor、Soundnet、Geneva Minimum Acoustic Parameter Set (eGeMAPS)提取了多模态特征，包括视觉特征和音频特征。

然后，通过”Sliding Window”获取子序列，初始视频序列的窗口化保证了利用当前时刻周围的信息（局部信息），而 "Sliding window"则将每个子序列连接起来，利用整个视频序列的信息来估计当前时刻的参与度（全局信息）。

最后，输入基于双向长短期记忆网络（Bi-LSTM）和Transformer的encoder部分分别设计的两个Seq2seq Model，通过Seq2seq Modeling来获得预测的参与度序列。我们验证了该方法明显优于之前的P2P 基线，取得了SOTA 的水准，并在本次MultiMediate '23参与度估计比赛中取得了第一名的成绩。

VTQA挑战

Grand Challenge是ACM MM的重要组成部分，每年均会承办多项比赛并在主会上公开其技术方案，VTQA则是今年的十项比赛之一。在VTQA挑战中，模型需要根据给定的图像-文本对来回答问题。为了正确回答问题，提出的模型需要：

(1) 学习识别图像和文本中与问题相关的实体；

(2) 对相同实体的多媒体表示进行对齐；

(3) 在文本和图像之间进行多步推理，并输出开放性答案。VTQA数据集包含10124个图像-文本对和23,781个问题。图像来自MSCOCO数据集，包含各种实体。标注时首先根据图像注释相关文本，然后基于图像-文本对提出问题，并最后以开放性方式回答问题。

在本文中，我们提出了基于答案的实体提取和对齐模型（AEEA），以实现VTQA问题的全面理解同时支持多跳推理。AEEA 建立在 baseline模型KECMR的基础上，并在三个方面进行了改进：

(1) Aligned Key Entity Extraction：将 Modular Co-Attention（MCA）融入到 baseline模型的KEE 中，解决模态对齐和实体提取问题；

(2) Unified Attention Cross-Media Reasoning：加入了一个额外的参数矩阵来控制模态内和模态间的信息流；

(3) Answer Aware Predictor：我们将训练集中50%的问题修改为包含答案的陈述句，以改进提取的实体特征，使预测器能够更准确地预测答案。与基线相比，所提出的 AEEA 方法在验证集和测试集上分别提高了2.24%和1.06%，并在VTQA2023挑战赛中获得了第三名。

幽默检测

MuSe-Humor挑战是第四届多模态情感分析挑战赛(Multimodal Sentiment Analysis(MuSe) 2023)的子挑战，属于ACM MM 2023研讨会。比赛的任务旨在从跨文化背景下的多模态数据(包括视频、音频和文本)中检测幽默的存在。比赛使用的数据集是Passau-SFCH数据集，包括德国和英格兰足球新闻发布会的视听录像，它被注释为教练展示的幽默，提供了二元标签（是否存在幽默）。训练和验证集中包含来自 10 位不同教练的 10 小时录音，语言为德语。测试集包括由6位不同教练举行的约5.6小时的英超联赛新闻发布会，语言为英语。

在本文中，我们提出了基于图蒸馏的多模态Transformer模型(MMT-GD)，以提高在跨文化背景下的幽默自动检测的准确性。创新点有两个方面：

(1) 我们提出了Multi-Modal Transformer (MMT)模块，在MMT中，分别以视觉模态、听觉模态和文本模态作为查询，有效聚合不同模态之间的相互作用信息；

(2) 在训练阶段，我们使用了图蒸馏的方法，在各模态之间进行知识传递。与基线相比，我们所提出的 MMT-GD 方法在测试集上的提高了4.7%，并在MuSe-Humor中获得了第三名。