视频理解agent,将长视频转化为结构化的记忆(时间、物体),通过调用工具进行推理。
2025-11-01
DepGraph: Towards Any Structural Pruning
UrbanGPT: Spatio-Temporal Large Language Models