开源轻量级智源研究院超长视频了解模型Vi
近来 ,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2 。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破 ,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机 。
在技能架构方面,视频Video-XL-2首要由视觉编码器 、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成。智源该模型选用SigLIP-SO400M作为视觉编码器,研究院开源轻对输入视频进行逐帧处理,量级将每一帧编码为高维视觉特征。超长随后,视频DTS模块对这些视觉特征进行交融紧缩,解模并建模其时序联系 ,智源以提取更具语义的研究院开源轻动态信息。处理后的量级视觉表征经过均匀池化与多层感知机(MLP)进一步映射到文本嵌入空间,完结模态对齐。终究,对齐后的视觉信息输入至Qwen2.5-Instruct,以完结对视觉内容的了解与推理 ,并完结相应的下流使命。
在练习战略上,Video-XL-2选用了四阶段渐进式练习的规划,逐渐构建其强壮的长视频了解能力。前两个阶段首要运用图画/视频-文本对 ,完结DTS模块的初始化与跨模态对齐;第三阶段则引进更大规划、更高质量的图画与视频描绘数据,开始奠定模型对视觉内容的了解能力;第四阶段 ,在大规划、高质量且多样化的图画与视频指令数据上进行微调 ,使Video-XL-2的视觉了解能力得到进一步提高与强化 ,然后能够更精确地了解和呼应杂乱的视觉指令 。
此外 ,Video-XL-2还系统性规划了功率优化战略。它引进了分段式的预装填战略(Chunk-based Prefilling),将超长视频划分为若干接连的片段(chunk) ,在每个chunk内部运用稠密注意力机制进行编码,而不同chunk之间则经过时刻戳传递上下文信息,显着降低了预装填阶段的计算成本与显存开支。一起,Video-XL-2还规划了依据双粒度KV的解码机制(Bi-granularity KV Decoding) ,在推理过程中,模型会依据使命需求,挑选性地对要害片段加载完好的KVs(dense KVs),而对其他非必须片段仅加载降采样后的稀少的KVs(sparse KVs),有用缩短了推理窗口长度 ,然后大幅提高解码功率 。得益于这些战略的协同优化,Video-XL-2完结了在单张显卡上对万帧级视频的高效推理,显着增强了其在实践使用场景中的实用性 。
在试验作用方面 ,Video-XL-2在MLVU、VideoMME和LVBench等干流长视频评测基准上全面逾越现有一切轻量级开源模型 ,达到当时最早进功能(SOTA) ,相较第一代Video-XL完结了显着提高 。特别值得重视的是 ,在MLVU和LVBench上 ,Video-XL-2的功能已挨近乃至逾越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规划高达720亿的大模型 。此外,在时序定位(Temporal Grounding)使命中,Video-XL-2也在Charades-STA数据集上取得了抢先的成果 ,进一步验证了其在多模态视频了解场景中的广泛适用性与实践价值。
在视频长度方面,Video-XL-2展现出显着优势。在单张24GB消费级显卡(如RTX3090/4090)上 ,Video-XL-2可处理长达千帧的视频;而在单张80GB高功能显卡(如A100/***)上 ,模型更支撑万帧级视频输入,远超现有干流开源模型 。相较于VideoChat-Flash和初代Video-XL,Video-XL-2显着拓宽了视频了解的长度并有用降低了资源需求,为处理杂乱的视频使命供给了有力的支撑。
在速度上,Video-XL-2也展现出杰出功能 。仅需12秒即可完结2048帧视频的预填充,其预填充时刻与输入帧数之间呈现出近似线性增加,表现了其超卓的可扩展性。相比之下