[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-9583":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":10,"languages":10,"totalLinesOfCode":10,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":15,"stars7d":16,"stars30d":17,"stars90d":15,"forks30d":15,"starsTrendScore":18,"compositeScore":19,"rankGlobal":10,"rankLanguage":10,"license":10,"archived":20,"fork":20,"defaultBranch":21,"hasWiki":22,"hasPages":20,"topics":23,"createdAt":10,"pushedAt":10,"updatedAt":44,"readmeContent":45,"aiSummary":46,"trendingCount":15,"starSnapshotCount":15,"syncStatus":47,"lastSyncTime":48,"discoverSource":49},9583,"CVPR2026-Papers-with-Code","amusi\u002FCVPR2026-Papers-with-Code","amusi","CVPR 2026 论文和开源项目合集","",null,22677,2788,298,8,0,25,139,13,89.5,false,"main",true,[24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43],"computer-vision","cvpr","cvpr2020","cvpr2021","cvpr2022","cvpr2023","cvpr2024","cvpr2025","cvpr2026","deep-learning","image-processing","image-segmentation","machine-learning","object-detection","paper","python","semantic-segmentation","transformer","transformers","visual-tracking","2026-06-12 04:00:45","# CVPR 2026 论文和开源项目合集(Papers with Code)\n\nCVPR 2026 decisions are now available on OpenReview！25.42% = 4090 \u002F 16092\n\n\n> 注1：欢迎各位大佬提交issue，分享CVPR 2026论文和开源项目！\n>\n> 注2：关于往年CV顶会论文以及其他优质CV论文和大盘点，详见： https:\u002F\u002Fgithub.com\u002Famusi\u002Fdaily-paper-computer-vision\n>\n> - [ICCV 2025](https:\u002F\u002Fgithub.com\u002Famusi\u002FICCV2025-Papers-with-Code)\n> - [ECCV 2024](https:\u002F\u002Fgithub.com\u002Famusi\u002FECCV2024-Papers-with-Code)\n\n\n欢迎扫码加入【CVer学术交流群】，可以获取CVPR 2026等最前沿工作！这是最大的计算机视觉AI知识星球！每日更新，第一时间分享最新最前沿的计算机视觉、AIGC、扩散模型、多模态、深度学习、自动驾驶、医疗影像和遥感等方向的学习资料，快加入学起来！\n\n![](CVer学术交流群.png)\n\n# 【CVPR 2026 论文开源目录】\n\n- [3DGS(Gaussian Splatting)](#3DGS)\n- [Agent)](#Agent)\n- [Avatars](#Avatars)\n- [Backbone](#Backbone)\n- [CLIP](#CLIP)\n- [Mamba](#Mamba)\n- [Embodied AI](#Embodied-AI)\n- [GAN](#GAN)\n- [GNN](#GNN)\n- [多模态大语言模型(MLLM)](#MLLM)\n- [大语言模型(LLM)](#LLM)\n- [具身智能(Embodied AI)](#Embodied)\n- [空间智能(Spatial Intelligence](#SI)\n- [NAS](#NAS)\n- [OCR](#OCR)\n- [NeRF](#NeRF)\n- [DETR](#DETR)\n- [扩散模型(Diffusion Models)](#Diffusion)\n- [ReID(重识别)](#ReID)\n- [长尾分布(Long-Tail)](#Long-Tail)\n- [Vision Transformer](#Vision-Transformer)\n- [视觉和语言(Vision-Language)](#VL)\n- [自监督学习(Self-supervised Learning)](#SSL)\n- [数据增强(Data Augmentation)](#DA)\n- [目标检测(Object Detection)](#Object-Detection)\n- [异常检测(Anomaly Detection)](#Anomaly-Detection)\n- [目标跟踪(Visual Tracking)](#VT)\n- [语义分割(Semantic Segmentation)](#Semantic-Segmentation)\n- [实例分割(Instance Segmentation)](#Instance-Segmentation)\n- [全景分割(Panoptic Segmentation)](#Panoptic-Segmentation)\n- [医学图像(Medical Image)](#MI)\n- [医学图像分割(Medical Image Segmentation)](#MIS)\n- [视频目标分割(Video Object Segmentation)](#VOS)\n- [视频实例分割(Video Instance Segmentation)](#VIS)\n- [参考图像分割(Referring Image Segmentation)](#RIS)\n- [图像抠图(Image Matting)](#Matting)\n- [图像编辑(Image Editing)](#Image-Editing)\n- [Low-level Vision](#LLV)\n- [超分辨率(Super-Resolution)](#SR)\n- [去噪(Denoising)](#Denoising)\n- [去模糊(Deblur)](#Deblur)\n- [自动驾驶(Autonomous Driving)](#Autonomous-Driving)\n- [3D点云(3D Point Cloud)](#3D-Point-Cloud)\n- [3D目标检测(3D Object Detection)](#3DOD)\n- [3D语义分割(3D Semantic Segmentation)](#3DSS)\n- [3D目标跟踪(3D Object Tracking)](#3D-Object-Tracking)\n- [3D语义场景补全(3D Semantic Scene Completion)](#3DSSC)\n- [3D配准(3D Registration)](#3D-Registration)\n- [3D人体姿态估计(3D Human Pose Estimation)](#3D-Human-Pose-Estimation)\n- [3D人体Mesh估计(3D Human Mesh Estimation)](#3D-Human-Pose-Estimation)\n- [3D Visual Grounding(3D视觉定位)](#3DVG)\n- [医学图像(Medical Image)](#Medical-Image)\n- [图像生成(Image Generation)](#Image-Generation)\n- [视频生成(Video Generation)](#Video-Generation)\n- [3D生成(3D Generation)](#3D-Generation)\n- [视频理解(Video Understanding)](#Video-Understanding)\n- [行为检测(Action Detection)](#Action-Detection)\n- [遥感(Remote)](#Remote)\n- [文本检测(Text Detection)](#Text-Detection)\n- [知识蒸馏(Knowledge Distillation)](#KD)\n- [模型剪枝(Model Pruning)](#Pruning)\n- [图像压缩(Image Compression)](#IC)\n- [视频压缩(Video Compression)](#VC)\n- [三维重建(3D Reconstruction)](#3D-Reconstruction)\n- [深度估计(Depth Estimation)](#Depth-Estimation)\n- [轨迹预测(Trajectory Prediction)](#TP)\n- [车道线检测(Lane Detection)](#Lane-Detection)\n- [图像描述(Image Captioning)](#Image-Captioning)\n- [视觉问答(Visual Question Answering)](#VQA)\n- [手语识别(Sign Language Recognition)](#SLR)\n- [视频预测(Video Prediction)](#Video-Prediction)\n- [新视点合成(Novel View Synthesis)](#NVS)\n- [Zero-Shot Learning(零样本学习)](#ZSL)\n- [立体匹配(Stereo Matching)](#Stereo-Matching)\n- [特征匹配(Feature Matching)](#Feature-Matching)\n- [暗光图像增强(Low-light Image Enhancement)](#Low-light)\n- [场景图生成(Scene Graph Generation)](#SGG)\n- [图像检索(Image Retrieval)](#Image-Retrieval)\n- [风格迁移(Style Transfer)](#ST)\n- [隐式神经表示(Implicit Neural Representations)](#INR)\n- [图像质量评价(Image Quality Assessment)](#IQA)\n- [视频质量评价(Video Quality Assessment)](#Video-Quality-Assessment)\n- [压缩感知(Compressive Sensing)](#CS)\n- [数据集(Datasets)](#Datasets)\n- [新任务(New Tasks)](#New-Tasks)\n- [其他(Others)](#Others)\n\n\u003Ca name=\"3DGS\">\u003C\u002Fa>\n\n# 3DGS(Gaussian Splatting)\n\n**Dropping Anchor and Spherical Harmonics for Sparse-view Gaussian Splatting**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20933\n- Code: \n- Project: https:\u002F\u002Fsk-fun.fun\u002FDropAnSH-GS\n\n**Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracking**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.01329\n- Project: https:\u002F\u002Fhaza628.github.io\u002FtagSplat\u002F\n\n**FastGS: Training 3D Gaussian Splatting in 100 Seconds**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.04283\n- Code: https:\u002F\u002Fgithub.com\u002Ffastgs\u002FFastGS\n- Project: https:\u002F\u002Ffastgs.github.io\u002F\n\n\n\u003Ca name=\"Agent\">\u003C\u002Fa>\n\n# Agent\n\n\n\n\n\u003Ca name=\"Avatars\">\u003C\u002Fa>\n\n# Avatars\n\n\n# Backbone\n\n\n\n\n\u003Ca name=\"CLIP\">\u003C\u002Fa>\n\n# CLIP\n\n\n\n\u003Ca name=\"Mamba\">\u003C\u002Fa>\n\n# Mamba\n\n\n\n\u003Ca name=\"GAN\">\u003C\u002Fa>\n\n# GAN\n\n\u003Ca name=\"OCR\">\u003C\u002Fa>\n\n# OCR\n\n\n\u003Ca name=\"NeRF\">\u003C\u002Fa>\n\n# NeRF\n\n\n\n\u003Ca name=\"DETR\">\u003C\u002Fa>\n\n# DETR\n\n\n\n\n\u003Ca name=\"Prompt\">\u003C\u002Fa>\n\n# Prompt\n\n\u003Ca name=\"MLLM\">\u003C\u002Fa>\n\n# 多模态大语言模型(MLLM)\n\n**Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20330\n- Code: https:\u002F\u002Fgithub.com\u002FUIUC-MONET\u002Fvlm-circuit-tracing\n\n**UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05075\n- Code: \n- Project: https:\u002F\u002Fany2any-mllm.github.io\u002Funim\u002F\n\n\n\n\u003Ca name=\"LLM\">\u003C\u002Fa>\n\n# 大语言模型(LLM)\n\n\n\u003Ca name=\"Embodied-AI\">\u003C\u002Fa>\n\n\n# 具身智能(Embodied AI)\n\n**Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20620\n- Code: https:\u002F\u002Fgithub.com\u002Fai4ce\u002Fwanderland\n- Project: https:\u002F\u002Fai4ce.github.io\u002Fwanderland\u002F\n\n\n\u003Ca name=\"SI\">\u003C\u002Fa>\n\n\n# 空间智能(Spatial Intelligence)\n\n**Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.27606\n- Code: https:\u002F\u002Fgithub.com\u002FInternLM\u002FSpatial-SSRL\n- Model: https:\u002F\u002Fhuggingface.co\u002Finternlm\u002FSpatial-SSRL-7B\n\n\n\u003Ca name=\"NAS\">\u003C\u002Fa>\n\n# NAS\n\n\u003Ca name=\"ReID\">\u003C\u002Fa>\n\n# ReID(重识别)\n\n\n**MOS: Mitigating Optical-SAR Modality Gap for Cross-Modal Ship Re-Identification**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.03404\n- Code: https:\u002F\u002Fgithub.com\u002Fyjzhao1019\u002FMOS\n\n\n\u003Ca name=\"Diffusion\">\u003C\u002Fa>\n\n# 扩散模型(Diffusion Models)\n\n\n\n\u003Ca name=\"Vision-Transformer\">\u003C\u002Fa>\n\n# Vision Transformer\n\n\n\n\u003Ca name=\"VL\">\u003C\u002Fa>\n\n# 视觉和语言(Vision-Language)\n\n**StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20089\n- Code: https:\u002F\u002Fgithub.com\u002Fintelligolabs\u002FStructXLIP\n\n**ApET: Approximation-Error Guided Token Compression for Efficient VLMs**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.19870\n- Code: https:\u002F\u002Fgithub.com\u002FMaQianKun0\u002FApET\n\n**Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20330\n- Code: https:\u002F\u002Fgithub.com\u002FUIUC-MONET\u002Fvlm-circuit-tracing\n\n\n\u003Ca name=\"Object-Detection\">\u003C\u002Fa>\n\n# 目标检测(Object Detection)\n\n\n\n\n\u003Ca name=\"Anomaly-Detection\">\u003C\u002Fa>\n\n# 异常检测(Anomaly Detection)\n\n\n\n\u003Ca name=\"VT\">\u003C\u002Fa>\n\n# 目标跟踪(Object Tracking)\n\n\n\n\n\u003Ca name=\"MI\">\u003C\u002Fa>\n\n# 医学图像(Medical Image)\n\n\n\n\n\n# 医学图像分割(Medical Image Segmentation)\n\n**MedCLIPSeg: Probabilistic Vision–Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20423\n- Code: https:\u002F\u002Fgithub.com\u002FHealthX-Lab\u002FMedCLIPSeg\n- Project: https:\u002F\u002Ftahakoleilat.github.io\u002FMedCLIPSeg\n\n\u003Ca name=\"Autonomous-Driving\">\u003C\u002Fa>\n\n# 自动驾驶(Autonomous Driving)\n\n**Open-Vocabulary Domain Generalization in Urban-Scene Segmentation**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.18853\n- Code: https:\u002F\u002Fgithub.com\u002FDZhaoXd\u002Fs2_corr\n\n**U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.02982\n- Code: https:\u002F\u002Fgithub.com\u002Fworldbench\u002FU4D\n\n\n# 3D点云(3D-Point-Cloud)\n\n**CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20409\n- Code: https:\u002F\u002Fgithub.com\u002FSarthakM320\u002FCLIPoint3D\n\n\n\u003Ca name=\"3DOD\">\u003C\u002Fa>\n\n# 3D目标检测(3D Object Detection)\n\n\n\n\u003Ca name=\"3DOD\">\u003C\u002Fa>\n\n# 3D语义分割(3D Semantic Segmentation)\n\n\n\n\n\n\u003Ca name=\"LLV\">\u003C\u002Fa>\n\n# Low-level Vision\n\n\n\n\u003Ca name=\"SR\">\u003C\u002Fa>\n\n# 超分辨率(Super-Resolution)\n\n\n\n\n\u003Ca name=\"Denoising\">\u003C\u002Fa>\n\n# 去噪(Denoising)\n\n## 图像去噪(Image Denoising)\n\n\u003Ca name=\"3D-Human-Pose-Estimation\">\u003C\u002Fa>\n\n# 3D人体姿态估计(3D Human Pose Estimation)\n\n\n\n\u003Ca name=\"3DVG\">\u003C\u002Fa>\n\n#3D Visual Grounding(3D视觉定位)\n\n\n\n\n\u003Ca name=\"Image-Generation\">\u003C\u002Fa>\n\n# 图像生成(Image Generation)\n\n\nExpPortrait: Expressive Portrait Generation via Personalized Representation\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.19900\n- Code: \n\n\n\u003Ca name=\"Video-Generation\">\u003C\u002Fa>\n\n# 视频生成(Video Generation)\n\n\n\n\n\u003Ca name=\"Image-Editing\">\u003C\u002Fa>\n\n# 图像编辑(Image Editing)\n\n\n\n\u003Ca name=\"Video-Editing\">\u003C\u002Fa>\n\n# 视频编辑(Video Editing)\n\n\n\n\u003Ca name=\"3D-Generation\">\u003C\u002Fa>\n\n# 3D生成(3D Generation)\n\n\n\n\n\u003Ca name=\"3D-Reconstruction\">\u003C\u002Fa>\n\n# 3D重建(3D Reconstruction)\n\n**tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction**\n\n- Project: https:\u002F\u002Fcwchenwang.github.io\u002FtttLRM\u002F\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20160\n- Code: https:\u002F\u002Fgithub.com\u002Fcwchenwang\u002FtttLRM\n\n**Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning**\n\n- Project: https:\u002F\u002Fflow3r-project.github.io\u002F\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20157\n- Code: https:\u002F\u002Fgithub.com\u002FKidrauh\u002Fflow3r\n\n**RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.19753\n- Code: https:\u002F\u002Fgithub.com\u002Fyyyykf\u002FRAP\n\n\n\u003Ca name=\"HMG\">\u003C\u002Fa>\n\n# 人体运动生成(Human Motion Generation)\n\n\u003Ca name=\"Video-Understanding\">\u003C\u002Fa>\n\n# 视频理解(Video Understanding)\n\n\n\n\n\n\u003Ca name=\"Remote\">\u003C\u002Fa>\n\n# 遥感(Remote)\n\nBrewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.19863\n- Code: None\n\n\n\u003Ca name=\"KD\">\u003C\u002Fa>\n\n# 知识蒸馏(Knowledge Distillation)\n\n\u003Ca name=\"Depth-Estimation\">\u003C\u002Fa>\n\n\n# 深度估计(Depth Estimation)\n\n\n\n\n\u003Ca name=\"Stereo-Matching\">\u003C\u002Fa>\n\n# 立体匹配(Stereo Matching)\n\n\n\u003Ca name=\"Low-light\">\u003C\u002Fa>\n\n# 暗光图像增强(Low-light Image Enhancement)\n\n\n\n\n\n\u003Ca name=\"IC\">\u003C\u002Fa>\n\n# 图像压缩(Image Compression)](#IC)\n\n\n\n\u003Ca name=\"VC\">\u003C\u002Fa>\n\n# 视频压缩(Video Compression)](#VC)\n\n**UniComp: Rethinking Video Compression Through Informational Uniqueness**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.03575\n- Code: https:\u002F\u002Fgithub.com\u002FTimeMarker-LLM\u002FUniComp\n\n\n\n\u003Ca name=\"SGG\">\u003C\u002Fa>\n\n# 场景图生成(Scene Graph Generation)\n\n\n\u003Ca name=\"Image-Retrieval\">\u003C\u002Fa>\n\n# 图像检索(Image Retrieval)\n\n**PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing\n**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04598\n- Code: \n\n\n\u003Ca name=\"ST\">\u003C\u002Fa>\n\n# 风格迁移(Style Transfer)\n\n\n\n\u003Ca name=\"IQA\">\u003C\u002Fa>\n\n# 图像质量评价(Image Quality Assessment)\n\n\n\n\u003Ca name=\"Video-Quality-Assessment\">\u003C\u002Fa>\n\n# 视频质量评价(Video Quality Assessment)\n\n\u003Ca name=\"CS\">\u003C\u002Fa>\n\n# 压缩感知(Compressive Sensing)\n\n\n\n\u003Ca name=\"Datasets\">\u003C\u002Fa>\n\n# 数据集(Datasets)\n\n\n\n\n\u003Ca name=\"Others\">\u003C\u002Fa>\n\n# 其他(Others)\n\n**Decoupling Defense Strategies for Robust Image Watermarking**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20053\n- Code: None\n\n**Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.19910\n- Code: \n\n**The Invisible Gorilla Effect in Out-of-distribution Detection**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20068\n- Code: https:\u002F\u002Fgithub.com\u002FHarryAnthony\u002FInvisible_Gorilla_Effect\n\n**SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20412\n- Code: \n\n**RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20618\n- Code: \n\n**Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models**\n\n- Paper:\n- Code: \n\n**GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.05095\n- Code: \n\n\n**FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04733\n- Code: https:\u002F\u002Fgithub.com\u002FeVI-group-SCU\u002FFOZO\n\n**Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning\n**\n\n- Paper: https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04825\n- Code: https:\u002F\u002Fgithub.com\u002FRyanZhaoIc\u002FCAD\n\n  ","CVPR 2026 论文和开源项目合集是一个汇集了计算机视觉领域最新研究成果的资源库。该项目涵盖了从3D重建、目标检测到自监督学习等多个方向的技术论文及其实现代码，特别强调了深度学习在图像处理与分析中的应用。它不仅为研究人员提供了丰富的参考资料，也方便开发者快速获取并复现最新的算法模型。适合于任何对计算机视觉及其相关技术感兴趣的学术研究者或工程师使用，在推动该领域的技术创新和发展方面具有重要价值。",2,"2026-06-11 03:23:33","top_topic"]