局部语义与全局语义融合的图文检索方法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP391

基金项目:

国家重点研发计划(2021YFF0501101);国家自然科学基金青年基金项目 (62106074);国家自然科学基金(52272347);湖南省自然科学基金(2024JJ7132);湖南工业大学研究生科研创新项目资助


Local and Global Semantic Fusion for Image-Text Retrieval
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    图像-文本匹配作为连接视觉与语言的桥梁,是一项实现双模态间高质量语义对齐的关键任务。针对图像文跨模态检索任务中图像与文本模态的语义特征在细粒度区分能力弱的问题,提出了一种融合模态内样本细粒度局部语义信息及模态间全局语义的多模态对齐方法。首先,提取图像和文本特征,并使用图注意力网络进行区域关系推理,以获取关系增强的局部特征;然后,利用注意力机制对同一模态内不同样本进行语义交互,从而充分学习各模态内样本间关联关系,得到语义增强的图像文本嵌入;最后,采用三角约束改进的三元组损失函数来提升多模态对齐性能。实验结果表明,在MS-COCO数据集的1K测试集上,该方法通过Recall@1指标评估,在图像检索任务中较现有方法实现了6.4%的性能提升,在文本检索任务中达到1.3%的性能提升,验证了所提方法的有效性。

    Abstract:

    Image–text retrieval serves as a pivotal bridge between vision and language, playing a critical role in achieving high-quality semantic alignment across modalities. To enhance the fine-grained discriminative capacity of semantic features in cross-modal retrieval, this study proposes a multi-modal alignment framework that integrates intra-modal fine-grained local semantics with inter-modal global semantic correlations. Original features of images and texts are first extracted, followed by region-level relational reasoning through Graph Attention Networks (GAT) to obtain relation-enhanced local features. An intra-modal attention mechanism is then employed to facilitate semantic interactions among samples within the same modality, thereby capturing comprehensive intra-modal associations and producing semantically enriched embeddings for both images and texts. Finally, a triangular constraint–enhanced triplet loss function is designed to optimize the alignment process. Experimental results on the MS-COCO dataset (1K test set) demonstrate improvements of 6.4% and 1.3% in image retrieval and text retrieval tasks, respectively, in terms of Recall@1, confirming the effectiveness of the proposed method.

    参考文献
    相似文献
    引证文献
引用本文

王忠美,彭深奥,刘建华,等. 局部语义与全局语义融合的图文检索方法[J]. 科学技术与工程, 2026, 26(13): 5574-5582.
Wang Zhongmei, Peng Shenao, Liu Jianhua, et al. Local and Global Semantic Fusion for Image-Text Retrieval[J]. Science Technology and Engineering,2026,26(13):5574-5582.

复制
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-05-12
  • 最后修改日期:2026-02-03
  • 录用日期:2025-11-19
  • 在线发布日期: 2026-05-18
  • 出版日期:
×
2026年会通知 | “技术经济学驱动智能经济生态构建与治理变革”——中国技术经济学会第三十三届学术年会(2026)会议通知暨征文启事(第一轮)
亟待确认版面费归属稿件,敬请作者关注