视频理解agent,将长视频转化为结构化的记忆(时间、物体),通过调用工具进行推理。
2025-11-01
实习记录
思路整理
项目记录
ShareGPT4Video
多模态架构相关