分类: 论文 | wolf-ll's blog

明日香的笔记
文章分类
                            
                            VideoAgent
                        
                                视频理解agent，将长视频转化为结构化的记忆（时间、物体），通过调用工具进行推理。
                            
                                2025-11-01
                            
                                    论文
                                
                            MLLM
                        
                            Agent
                        
                            LLAMA-VID
                        
                                视觉表征范式：用户查询上下文token&视觉帧内容token
                            
                                2025-09-14
                            
                                    论文
                                
                            MLLM
                        
                            视频理解
                        
                            Cross-modal Causal Relation Alignment for VQG
                        
                                视频问题定位的跨模态因果关系对齐
                            
                                2025-04-01
                            
                                    论文
                                
                            视频理解
                        
                            多模态
                        
                            TRACE: Temporal Grounding Video LLM
                        
                                通过因果事件建模增强视频理解大模型的时间定位能力
                            
                                2025-03-25
                            
                                    论文
                                
                            MLLM
                        
                            视频理解
                        
                            ShareGPT4Video
                        
                                ShareGPT4Video系列，视频密集标注策略，详细标注数据集，标注模型
                            
                                2024-12-03
                            
                                    论文
                                
                            MLLM
                        
                            视频理解
                        
                            字幕生成
                        
                            MVBench
                        
                                多模态大模型视频理解能力基准
                            
                                2024-11-12
                            
                                    论文
                                
                            MLLM
                        
                            视频理解
                        
                            TimeChat
                        
                                基于视频滑窗Q-Former的时序感知的视频大模型
                            
                                2024-10-13
                            
                                    论文
                                
                            MLLM
                        
                            视频理解
                        
                            DepGraph: Towards Any Structural Pruning
                        
                                介绍Torch-Pruning结构化剪枝库及其底层算法DepGraph（CVPR 2023）
                            
                                2024-05-13
                            
                                    论文
                                
                            LLM
                        
                            压缩
                        
                            推理加速
                        
                            UrbanGPT: Spatio-Temporal Large Language Models
                        
                                一个用于城市任务时间序列预测的大模型，集成时空编码器和指令微调以融合时序数值数据和时空上下文特征。
                            
                                2024-04-30
                            
                                    论文
                                
                            LLM
                        
                            时间序列
                        
                            A Survey of Large Language Models
                        
                                LLM综述
                            
                                2024-04-24
                            
                                    论文
                                
                            LLM
                        
                            Survey