智谱 AI 开源理解模型 CogVLM2-Video,可回答时间相
智谱 AI 宣布,训练了一种新的理解模型 CogVLM2-Video,并将其开源。
据介绍,当前大多数的理解模型使用帧平均和标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。
▲ 官方效果演示
智谱 AI提出了一种智谱 AI 表示,CogVLM2-Video 不仅在公共理解基准上达到了最新的性能,还在字幕生成和时间定位方面表现出色。
附相关链接:
代码:
项目网站:
在线试用: