自然语言辅助手语识别 Natural Language-Assisted Sign Language Recognition

手语是一种视觉化语言，通过手势、面部表情、身体运动等传达信息。由于这些视觉元素的组合有固有的限制，手语中存在大量视觉上难以区分的符号（VISigns），这限制了视觉神经网络的识别能力。为了缓解这个问题，我们提出了自然语言辅助手语识别（NLA-SLR）框架，利用语义信息包含在注释中（符号标签）。首先，对于具有相似语义意义的VISigns，我们提出使用语言感知标签平滑方法，通过为每个训练符号生成软标签，并计算标签平滑权重，以减轻训练的难度。其次，对于具有不同语义意义的VISigns，我们提出一种跨模态混合技术，将视觉和注释特征混合，以进一步增加根据融合标签监督下的不同符号的可分性。此外，我们还引入了一种新的主干网络，视频关键点网络，它不仅可以建模RGB视频和人体关键点，而且还可以从具有不同时间感受野的手语视频中获取知识。实验结果表明，我们的方法在三个广泛使用的基准测试中实现了最先进的性能：MSASL，WLASL和NMFs-CSL。代码可以在https://github.com/FangyunWei/SLRT上找到。

论文链接：http://arxiv.org/pdf/2303.12080v1

更多计算机论文：http://cspaper.cn/

Related posts

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

字符串上子句的等式定理证明 Equational Theorem Proving for Clauses over Strings

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

Agda中系统T的强正规化定理的形式证明 A Formal Proof of the Strong Normalization Theorem for System T in Agda

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds

关于对偶连接和统计流形的扭转/曲率相似 On a Torsion/Curvature Analogue of Dual Connections and Statistical Manifolds