归档 | wolf-ll's blog

明日香的笔记

2025

11

01

VideoAgent

视频理解agent，将长视频转化为结构化的记忆（时间、物体），通过调用工具进行推理。

2025-11-01 论文

MLLM Agent

09

14

LLAMA-VID

视觉表征范式：用户查询上下文token&视觉帧内容token

2025-09-14 论文

MLLM 视频理解

14

实习记录

实习内容简要整理

2025-09-14 笔记

LLM 项目

04

01

Cross-modal Causal Relation Alignment for VQG

Cross-modal Causal Relation Alignment for VQG

视频问题定位的跨模态因果关系对齐

2025-04-01 论文

视频理解多模态

03

25

TRACE: Temporal Grounding Video LLM

TRACE: Temporal Grounding Video LLM

通过因果事件建模增强视频理解大模型的时间定位能力

2025-03-25 论文

MLLM 视频理解

08

思路整理

后端体系问题记录

2025-03-08 后端

Java 项目

08

项目记录

项目八股整理

2025-03-08 笔记

Java 项目

01

08

MLLM Papers Review

MLLM Papers Review

mllm相关论文复盘整理

2025-01-08 笔记

MLLM 论文

2024

12

10

MLLM Dataset&Code

MLLM Dataset&Code

记录mllm相关数据集和代码

2024-12-10 笔记

MLLM 代码

03

ShareGPT4Video

ShareGPT4Video系列，视频密集标注策略，详细标注数据集，标注模型

2024-12-03 论文

MLLM 视频理解字幕生成

02

多模态架构相关

多模态架构相关

多模态模型架构整理，自用

2024-12-02 笔记

LLM 多模态

11

18

Vue

前端三件套+Vue简要笔记整理

2024-11-18 前端

框架前端

            
1 / 3