开云体育豆包发布视频生成推行模子“VideoWorld”-开云(中国)Kaiyun·官方网站 - 登录入口 - 开云(中国)Kaiyun·官方网站

栏目分类

热点资讯

你的位置：开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻资讯 > 开云体育豆包发布视频生成推行模子“VideoWorld”-开云(中国)Kaiyun·官方网站 - 登录入口

开云体育豆包发布视频生成推行模子“VideoWorld”-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期：2025-08-03 06:21 点击次数：102

开云体育豆包发布视频生成推行模子“VideoWorld”-开云(中国)Kaiyun·官方网站 - 登录入口

K图 301536_0

K图 300458_0

K图 300613_0

K图 688088_0

　　2月10日，A股视觉默契见解股午后大幅走强，创业板星宸科技直线拉升涨停，全志科技、富瀚微、虹软科技等纷纷大幅冲高。

　　音书面上，豆包发布视频生成推行模子“VideoWorld”。据先容，不同于Sora、DALL-E、Midjourney等主流多模态模子，VideoWorld在业界初度完了无需依赖讲话模子，仅通过“视觉信息”即可默契寰宇，也等于说，VideoWorld可通过浏览视频数据，让机器掌持推理、策画和有操办等复杂智商。团队推行发现，仅300M参数目下，VideoWorld已得回可不雅的模子证明。

　　目下，该名堂代码与模子已开源。

　　现存模子大多依赖讲话或标签数据学习常识，很少波及纯视觉信号的学习。VideoWorld选拔去掉讲话模子，完了了长入奉行认识和推理任务。

　　若何作念到的？

　　豆包大模子团队称，VideoWorld基于一种潜在动态模子（Latent Dynamics Model，LDM），可高效压缩视频帧间的变化信息，在保留丰富视觉信息的同期，压缩了关节有操办和当作相干的视觉变化，显耀提高常识学习着力和着力。

　　在不依赖任何强化学习搜索或奖励函数机制前提下，VideoWorld达到了专科5段9x9围棋水平，并粗略在多种环境中，奉行机器东说念主任务。

　　但该模子并不完好意思，其在真的寰宇环境中的运用，仍濒临着高质料视频生成和多环境泛化等挑战。这少量最直不雅体当今，视频中存在多数冗余信息，会大大影响模子的学习着力，使得视频序列的常识挖掘着力显耀落伍于文本模式，不利于模子对复杂常识的快速学习。

　　大模子的视觉认识智商一直是AI前沿量度主见之一。对东说念主类而言，与讲话比拟，“用眼睛看”是门槛更低的默契方式。正如李飞飞涵养9年前TED演讲中提到“幼儿不错不依靠讲话认识真的寰宇”。

　　AI视觉学习，简便来说，需要大模子认识物品/空间/场景的合座含义，并字据识别本色进行复杂的逻辑狡计，字据图像信息更精良地表述并创作。

　　AI视觉学习智商提高，有望催发更多的AI运用。长城证券此前发布研报称，国内AI大模子多模态智商正不竭提高开云体育，如快手可灵AI大模子、字节豆包AI大模子等视频生成的着力正在不竭提高，包括精确语义认识、一致性多镜头生成、动态运镜等。受益于底层时候智商的升级，国内AI运用不竭迭代，token调用量不竭增长，AI运用有望从中受益。

上一篇：开云(中国)Kaiyun·官方网站 - 登录入口但也谨防到了地缘政事和需求疲弱的风险-开云(中国)Kaiyun·官方网站 - 登录入口

下一篇：开云(中国)Kaiyun·官方网站 - 登录入口并在信息更为精确的同期-开云(中国)Kaiyun·官方网站 - 登录入口

开云(中国)Kaiyun·官方网站 - 登录入口

栏目分类

热点资讯

友情链接：