一种融合动态令牌稀疏化与跨路径注意力的双路径视频行为识别方法
DOI:
作者:
作者单位:

1.西南石油大学电气信息学院;2.西藏大学信息科学与技术学院

作者简介:

通讯作者:

中图分类号:

TP183

基金项目:

国家自然科学基金(62161047);


A Dual-Path Video Action Recognition Method Fusing Dynamic Token Sparsification and Cross-Path Attention
Author:
Affiliation:

1.School of Electrical Information,Southwest Petroleum University,Chengdu;2.School of Information Science and Technology,Xizang University,Lhasa

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为提升 SlowFast 网络在行为识别任务中的计算效率与跨路径特征交互能力,本文在原有双路径结构基础上引入视频动态稀疏 Token 选择模块(VDST)和双向门控交叉注意力模块(Bi-CAM),通过在快路径中自适应筛选关键时空区域并在慢–快路径之间建立细粒度双向语义融合机制,研究了改进 SlowFast 在计算复杂度与识别性能之间的权衡关系。结果表明:VDST 模块能够有效压缩冗余特征计算,在显著降低 FLOPs 的情况下保持模型精度;Bi-CAM 模块提升了双路径之间的语义交互质量,使得动作表征更加完整;两模块结合后的改进模型在 UCF101 数据集上取得 95.5% 的 Top-1 精度,仅需 33.6 GFLOPs。可见,本文提出的多模块融合 SlowFast 框架能够在保持高识别精度的同时显著提升计算效率,为构建高效视频理解模型提供了可行方案。

    Abstract:

    To enhance the computational efficiency and cross-path feature interaction of the SlowFast network in action recognition tasks, this study incorporates a Video Dynamic Sparse Token (VDST) Selection module and a Bidirectional Gated Cross-Attention Module (Bi-CAM) into the original dual-path framework. By adaptively selecting key spatiotemporal regions in the fast pathway and establishing fine-grained bidirectional semantic fusion between the slow and fast pathways, this work investigates the trade-off between computational complexity and recognition performance in the improved SlowFast architecture. The results show that the VDST module effectively reduces redundant feature computation and maintains model accuracy while significantly lowering FLOPs; the Bi-CAM module enhances semantic interaction across pathways and leads to more comprehensive action representations; and the combined model achieves a Top-1 accuracy of 95.5% on the UCF101 dataset with only 33.6 GFLOPs. It can be seen that the proposed multi-module enhanced SlowFast framework substantially improves computational efficiency while preserving high recognition accuracy, providing a feasible solution for efficient video understanding.

    参考文献
    相似文献
    引证文献
引用本文

罗竣鑫,王龙业,曾晓莉,等. 一种融合动态令牌稀疏化与跨路径注意力的双路径视频行为识别方法[J]. 科学技术与工程, , ():

复制
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-12-07
  • 最后修改日期:2026-04-21
  • 录用日期:2026-05-09
  • 在线发布日期:
  • 出版日期:
×
2026年会通知 | “技术经济学驱动智能经济生态构建与治理变革”——中国技术经济学会第三十三届学术年会(2026)会议通知暨征文启事(第一轮)
亟待确认版面费归属稿件,敬请作者关注