热点资讯
开云体育豆包发布视频生成推行模子“VideoWorld”-开云(中国)Kaiyun·官方网站 - 登录入口
发布日期:2025-08-03 06:21 点击次数:91
2月10日,A股视觉默契见解股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

音书面上,豆包发布视频生成推行模子“VideoWorld”。据先容,不同于Sora、DALL-E、Midjourney等主流多模态模子,VideoWorld在业界初度完了无需依赖讲话模子,仅通过“视觉信息”即可默契寰宇,也等于说,VideoWorld可通过浏览视频数据,让机器掌持推理、策画和有操办等复杂智商。团队推行发现,仅300M参数目下,VideoWorld已得回可不雅的模子证明。
目下,该名堂代码与模子已开源。

现存模子大多依赖讲话或标签数据学习常识,很少波及纯视觉信号的学习。VideoWorld选拔去掉讲话模子,完了了长入奉行认识和推理任务。
若何作念到的?
豆包大模子团队称,VideoWorld基于一种潜在动态模子(Latent Dynamics Model,LDM),可高效压缩视频帧间的变化信息,在保留丰富视觉信息的同期,压缩了关节有操办和当作相干的视觉变化,显耀提高常识学习着力和着力。
在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专科5段9x9围棋水平,并粗略在多种环境中,奉行机器东说念主任务。
但该模子并不完好意思,其在真的寰宇环境中的运用,仍濒临着高质料视频生成和多环境泛化等挑战。这少量最直不雅体当今,视频中存在多数冗余信息,会大大影响模子的学习着力,使得视频序列的常识挖掘着力显耀落伍于文本模式,不利于模子对复杂常识的快速学习。
大模子的视觉认识智商一直是AI前沿量度主见之一。对东说念主类而言,与讲话比拟,“用眼睛看”是门槛更低的默契方式。正如李飞飞涵养9年前TED演讲中提到“幼儿不错不依靠讲话认识真的寰宇”。
AI视觉学习,简便来说,需要大模子认识物品/空间/场景的合座含义,并字据识别本色进行复杂的逻辑狡计,字据图像信息更精良地表述并创作。
AI视觉学习智商提高,有望催发更多的AI运用。长城证券此前发布研报称,国内AI大模子多模态智商正不竭提高开云体育,如快手可灵AI大模子、字节豆包AI大模子等视频生成的着力正在不竭提高,包括精确语义认识、一致性多镜头生成、动态运镜等。受益于底层时候智商的升级,国内AI运用不竭迭代,token调用量不竭增长,AI运用有望从中受益。