我是北京大学计算机科学与技术专业直博四年级学生 (预计 2026 年毕业),本科毕业于华南理工大学电子与信息学院(2021 届)。
人生格言: 知行合一,格物致知;志存高远,脚踏实地。
我的研究方向主要集中在 "多模态大模型与图像/视频理解" 领域,具体包括:
- 多模态大模型 (视频理解), 包括:
- 泛视频理解: Qwen2.5-VL core contributor
- 音视频理解: VideoLLaMA2; CMM
- 流视频理解: VideoLLaMA3
- 长视频理解: Inf-CL (CVPR 2025 Highlight)
- 细粒度视频理解: VideoRefer (CVPR 2025)
- 图像/视频分割,包括:
- 弱监督分割: OCR (CVPR 2023)
- 视频实例分割: TAR (ICCV 2025)
- 多模态分割: WiCo (IJCAI 2023, Neurocomputing 2024); PVD (AAAI 2024); BriVIS (AAAI 2025)
- 医学图像分割: Fused U-Net (Medical Physics 2021)
目前已发表论文 20+ 篇,总 Google Scholar 引用量为
。
所参与开源项目获得广泛关注,代表性项目的 GitHub Star 数如下:
如果您对我的研究感兴趣,欢迎联系交流合作或提供实习 / 全职机会 🙏🙏。这是我的联系邮箱: [email protected]
- Personal Pages: https://clownrat6.github.io (updated recently🔥)
- Google Scholar: https://scholar.google.com/citations?user=Jkkp8JAAAAAJ
- 2021.03: I join Sensetime
as a research intern in shenzhen for developing MMSegmentation
toolkit.
My full paper list is shown at my personal homepage.