视频理解agent,将长视频转化为结构化的记忆(时间、物体),通过调用工具进行推理。
2025-11-01
VideoAgent
LLAMA-VID
实习记录
Cross-modal Causal Relation Alignment for VQG
TRACE: Temporal Grounding Video LLM
思路整理
项目记录
MLLM Papers Review
MLLM Dataset&Code
ShareGPT4Video
多模态架构相关
Vue