会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 【khajana matka result】智谱 AI 开源视频理解模型 CogVLM2!

【khajana matka result】智谱 AI 开源视频理解模型 CogVLM2

时间:2024-09-20 19:59:29 来源: 作者:热点 阅读:665次

感谢IT之家网友 USER 的智谱线索投递!

IT之家 7 月 12 日消息,开源智谱 AI 宣布,视频khajana matka result训练了一种新的理解视频理解模型 CogVLM2-Video,并将其开源。模型

据介绍,智谱当前大多数的开源视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的视频丢失,无法准确回答与时间相关的理解问题。一些专注于时间问答数据集的模型khajana matka result模型过于局限于特定格式和适用领域,使得模型失去了更广泛的智谱问答能力。

▲ 官方效果演示▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的开源自动时间定位数据构建方法,生成了 3 万条与时间相关的视频视频问答数据。基于这个新数据集和现有的理解开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,模型训练出 CogVLM2-Video 模型。

智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

IT之家附相关链接:

  • 代码:https://github.com/THUDM/CogVLM2

  • 项目网站:https://cogvlm2-video.github.io

  • 在线试用:http://36.103.203.44:7868/

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

(责任编辑:百科)

相关内容
  • 学校点名爸爸来开家长会:父亲育儿不能是“奢侈品”
  • 2024年免费文字冒险游戏:专业评测与推荐
  • 外交部:对美国军工企业及高级管理人员采取反制措施
  • 探索2024年文字单机游戏:体验深度剧情
  • Scenery of tea garden in Mu'er Mountain, C China's Hubei
  • 艾尔登法环首个大型DLC被喷太差了!粉丝:剧情干巴巴的
  • 灵巫降临!《暗黑破坏神4》10月9日资料片更新
  • 网传iPhone 16出货目标上调10%:至少9000万台
推荐内容
  • A股海南自贸区、保险板块周四走强
  • 约6000元!索尼发布APS
  • 间谍用校园贷逼迫大学生窃取国家秘密!细节披露
  • 亿咖通蔡莉莉:AI大模型一定是刚需,中央大脑时代很快就会到来
  • Across China: Historic buildings revitalized with new business, tourism functions
  • 探索2024年免费文字游戏世界