明日香的笔记
Cross-modal Causal Relation Alignment for VQG Cross-modal Causal Relation Alignment for VQG
视频问题定位的跨模态因果关系对齐
2025-04-01
TRACE: Temporal Grounding Video LLM TRACE: Temporal Grounding Video LLM
通过因果事件建模增强视频理解大模型的时间定位能力
2025-03-25
ShareGPT4Video ShareGPT4Video
ShareGPT4Video系列,视频密集标注策略,详细标注数据集,标注模型
2024-12-03
MVBench MVBench
多模态大模型视频理解能力基准
2024-11-12
TimeChat TimeChat
基于视频滑窗Q-Former的时序感知的视频大模型
2024-10-13
DepGraph: Towards Any Structural Pruning DepGraph: Towards Any Structural Pruning
介绍Torch-Pruning结构化剪枝库及其底层算法DepGraph(CVPR 2023)
2024-05-13
UrbanGPT: Spatio-Temporal Large Language Models UrbanGPT: Spatio-Temporal Large Language Models
一个用于城市任务时间序列预测的大模型,集成时空编码器和指令微调以融合时序数值数据和时空上下文特征。
2024-04-30