多模态情感分析
目录
多模态情感分析
多模态情感分析是传统的基于文本的情感分析的一个新维度,它超越了文本的分析,包括其他模式,如音频和视觉数据。它可以是双模态的,包括两种模态的不同组合,也可以是三模态的,包含了三种模态。随着视频和图片等不同形式的社交媒体数据的大量上线,传统的基于文本的情感分析已经演变成更复杂的多模态情感分析模型,它可以应用于虚拟助手的开发、YouTube电影评论的分析、新闻视频的分析,以及情绪识别(有时被称为情绪检测),如抑郁症监测等等。与传统的情感分析类似,多模态情感分析中最基本的任务之一是情感分类,将不同的情感分为正面、负面或中性等类别。分析文本、音频和视觉特征来完成这样的任务的复杂性要求应用不同的融合技术,如特征级、决策级和混合融合。这些融合技术的性能和应用的分类算法,受到分析中采用的文本、音频和视觉特征类型的影响。
多模态情感分析的特征
特征工程涉及到选择输入机器学习算法的特征,对情感分类的性能起着关键作用。在多模态情感分析中,不同的文本、音频和视觉特征的组合被采用。
文本特征
与传统的基于文本的情感分析类似,多模态情感分析中最常用的一些文本特征是单格和N格,它们基本上是给定文本文件中的单词序列。这些特征使用词袋或概念袋的特征表示,其中词或概念被表示为合适空间中的向量。
音频特征
情感和情绪特征在音频特征中包含的不同语音和语调属性中非常突出。在多模态情感分析中采用的一些最重要的音频特征是熔点频率倒谱(MFCC)、频谱中心点、频谱通量、节拍直方图、节拍总和、xxx节拍、停顿时间和音调。OpenSMILE和Praat是流行的开源工具包,用于提取此类音频特征。
视觉特征
与单纯的文本相比,分析视频的主要优势之一是视觉数据中存在丰富的情感线索。视觉特征包括面部表情,这在捕捉情感和情绪方面是最重要的,因为它们是形成一个人当前心态的主要渠道。具体来说,微笑被认为是多模态情感分析中xxx预测性的视觉线索之一。OpenFace是一个开源的面部分析工具包,可用于提取和理解这种视觉特征。
融合技术
与传统的基于文本的情感分析不同,多模态情感分析经历了一个融合过程,来自不同模式(文本、音频或视觉)的数据被融合并一起分析。现有的多模态情感分析数据融合方法可分为三大类:特征级、决策级和混合融合,而情感分类的性能取决于采用哪种融合技术。
特征级融合
特征级融合(有时被称为早期融合)收集来自每种模式(文本、音频或视觉)的所有特征,并将它们连接成一个单一的特征向量,最终被送入分类算法。实施这种技术的困难之一是异质特征的整合。

决策级融合
决策级融合(有时被称为后期融合),将每种模式(文本、音频或视觉)的数据独立地送入自己的分类算法,并通过将每个结果融合为一个决策向量来获得最终的情感分类结果。这种融合技术的优点之一是,它消除了融合异质数据的需要,每个模式可以利用其最合适的分类算法。
混合融合
混合融合是特征级和决策级融合技术的结合,它在分类过程中利用了两种方法的互补信息。它通常涉及一个两步程序,其中特征级融合最初在两种模式之间进行,然后决策级融合作为第二步,将特征级融合的初始结果与其余模式融合。与基于文本的情感分析相似的应用