hao123上网导航 hao123上网导航 hao123上网导航 hao123上网导航
  • 常用推荐
  • 在线工具箱
  • AI聊天机器人
  • AI​文本生成
  • AI图像工具
  • AI工具集
  • AI智能应用
  • AI生产效率
  • ​娱乐休闲
  • 影音娱乐
  • 学术集
  • 生活服务
  • 社交媒体
  • 行业导航
  • 小游戏
  • 友情链接
  • 联系我们
hao123上网导航 hao123上网导航
  • 首页
  • 在线工具箱
  • 日系杂志
  • 杂志猫
常用
搜索
工具
社区
生活

    视觉模型

    InternViT-6B-448px-V2_5
    InternViT-6B-448px-V2_5

    InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型,通过使用ViT增量学习与NTP损失(阶段1.5),提升了视觉编码器提取视觉特征的能力,尤其是在大规模网络数据集中代表性不足的领域,如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分,保留了与前代相同的“ViT-MLP-LLM”模型架构,并集成了新增量预训练的InternViT与各种预训练的LLMs,包括InternLM 2.5和Qwen 2.5,使用随机初始化的MLP投影器。

    Copyright © 2025 hao123上网导航