

前通义千问端庄东谈主林俊旸在5月修复的新公司,连名字都还没起,只知谈筹议的是寰球模子和具身智能,估值就一经到20亿好意思元了,还拿到了腾讯2000万好意思元的投资。
此前有东谈编缉据林俊旸的推文推测,说他当今作念的是“量度”,Next State Prediction,也即是量度下一帧会发生什么。
这句话没说错,但是说了等于没说。
为什么呢?因为当今系数大模子都是在量度,量度下一个token的内容是什么。
而且若是仅仅情景的量度,那OpenAI的视频生成模子Sora,它其实干的亦然量度各个事物的物理情景,你再开一家公司去干相通的事情,透彻没专诚旨。
我认为,林俊旸想要卖的是一套更深的东西——瞎想力。
AI在行径之前,把事情在脑子里过一遍。
我给你举个例子,我让机器东谈主去举起一个水杯,它会在脑子里想“这水杯的摩擦力是怎么,我的机器手臂会不会打滑?”、“这小子是不是坑我,水杯有可能是带电的,我碰一下把我给电坏了咋办”、“万一我把水杯给摔了,把我卖了够不够赔的?”
把系数可能都想好,再去行径,通盘过程,就叫作念“瞎想力”。
你别不信,听我冉冉给你讲。
01
林俊旸的拼图
PG娱乐电子游戏中国APP下载咱们先从最基本的开动提及。
林俊旸参与过的筹议相等多,最知名的笃定是M6。
M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer,翻译过来是从多模态到多模态,多任务,巨型Transformer。
M6的中枢,是把系数模态、系数任务,都塞进吞并个大模子框架里。让模子不仅能措置纯文本、纯图像的单模态任务,也能措置跨模态任务,还能作念文本指点的图像生成。
M6是“瞎想力”的早先,物理寰球自身很复杂,有笔墨、图像、声息、空间位置、物体情景、手脚过程和驱逐响应。AI想要去领会这个寰球,第一步即是把这些不同类型的信息放进吞并个模子里措置。
林俊旸很早蔼然的就不是单个任务,而是怎么把不同来源、不同形态的训导斡旋成模子可学习的格局。

光有框架还不够,你还得让模子能赫然。是以开云体育(中国)2026世界杯官方IOS|Android手机app下载就有了Qwen和Qwen-VL。
Qwen咱们都很熟习了,它不错写代码、调用API、使用器具,把一个见识拆成多步行径,并笔据器具复返的驱逐不绝诊疗下一步。
也即是说,Qwen让模子有了相比明晰的行径经过:先领会见识,再给与妙技,再履行,再看响应。
到了,Qwen-VL,它让AI的眼睛不仅仅看,还能指。看图话语环球都会,但Qwen-VL还能作念grounding,把图片里的物体框出来,读图上的笔墨,回应“图中右下角的红色杯子在哪个位置”这种问题。
这两篇放在一王人看,Qwen-VL让模子知谈物体在哪,Qwen让模子知谈怎么起首。
十分于是让模子从不雅众席,走到了赛场上。
2026年春节前后,林俊旸参与了一篇论文,名为WebWorld。这篇论文讲的是造一个假的网页寰球,让Agent在里面练手。
它用朝上一百万条确凿网页交互数据磨真金不怕火了一个网页模拟器,能守旧三十步以上的长序列模拟,支捏推理、多格局数据。
在那时,WebWorld的模拟质地一经能跟Gemini-3-Pro打平。况兼用WebWorld合成数据磨真金不怕火的Qwen3-14B,在WebArena上平直涨了9.2%,性能追上了GPT-4o。
而且这套模拟本领还能跨范围泛化,代码、GUI、游戏环境都适用。
为什么要造模拟寰球?因为确凿寰球太慢了。网页有加载蔓延、有看望频率截止、有风控阻扰。你让Agent在确凿网页上试错一千次,可能八百次都卡在收集蔓延上,剩下两百次还有一半被当成爬虫封了。
磨真金不怕火自身需要的是多数种种化的交互训导。既然如斯那就在模子里面再造一个寰球。Agent在这个诞妄寰球里怎么碰钉子都行,零老本,零风险。
这即是“瞎想力”的内容,我是为了要裁汰后续的风险老本,是以我当今才让机器东谈主“大脑”内进行模拟磨真金不怕火,磨真金不怕火好了以后才能少给我肇事。
模式有了,那我该让机器东谈主在脑内磨真金不怕火什么呢?VideoAgentTrek。它作念的是从东谈主类操作视频里,开云体育(中国)2026世界杯官方IOS|Android手机app下载自动挖出Agent不错学习的操作轨迹。
VideoAgentTrek从YouTube上扒了三万九千个屏幕录制的教程视频,全是无标注的原始视频,然后自动解析出了一百五十多万条GUI交互标准。
这篇论文倒置了通盘贯通逻辑。一般东谈主看到教程,料想的是“我随着学”。林俊旸看到的是磨真金不怕火数据。
教程视频里藏着最精确的操作轨迹,鼠标从哪移到哪、点了什么按钮、打了什么字,全是现成的标注。他想的是怎么把这种“东谈主演示给机器看”的视频,逆向拆成“机器能学的训导”。
这个想路一朝修复,数据就取之不停。每天有无数东谈主在网上录教程,每一个教程都是一条隐形的磨真金不怕火轨迹。
说句题外话,这篇论文还有个相等专诚想的处所,那即是林俊旸(Junyang Lin)和香港大学的杨俊霖(Junlin Yang)一王人出当今了作家的位置。

再然后,就到了CUA-Gym。
若是你让一个Agent在模拟寰球里作念一百次尝试,但是莫得东谈主告诉它哪次对哪次错,那这一百次就等于白作念。CUA-Gym作念的事情即是自动安插一个裁判,自动出题,自动批卷。
瞎想力若是莫得像代码那样不错被考据的奖励信号,那即是纯破钞算力。只须有了裁判、有了分数、有了回放,模拟里跑过的每一步才信得过算数。要想把“瞎想力”放进施行里去,就得有谜底、响应和复盘的系统。
临了,概况说一切的一切,都要落到“履行”二字。因此来到了Qwen-VLA和Qwen-RobotWorld。这两篇论文是物理寰球的双生子。
Qwen-VLA作念了一件事,它在Qwen的基础上加了一个DiT架构的手脚解码器,把文本、图像的领会平直输出为流畅的手脚轨迹。
为了支捏不同形态的机器东谈主,它引入了一个机器东谈主描写符机制,换一个体魄就换一个描写文本,吞并套大脑不变。效果很猛,LIBERO上97.9%,Simpler-WidowX上73.7%,确凿寰球的ALOHA实验中76.9%的跨散布泛化。
Qwen-RobotWorld则是另一个维度,它磨真金不怕火了一个语言条目视频寰球模子,通过860万条视频文本数据,两亿多帧画面,涵盖二十多种机器东谈主和五百多种手脚类型。
这个模子能笔据现时不雅察和一句教唆,量度往时会发生什么画面,在EWMBench和DreamGen Bench上都排到了第一。
系数筹议后果连起来看,“瞎想力”从理念到履行,收尾了完满的闭环,一环扣一环。
02
李飞飞和杨立昆
若是只拿林俊旸的筹议来说事,可能有些站不住脚。但是若是把李飞飞和杨立昆也拉进来,你就发现一切修复了,每个东谈主作念出来的寰球模子,内容上都是他们一世筹议后果的终极大交融。
先说AI教母李飞飞,她从ImageNet起家,她从那时代起筹议的即是“AI怎么看见寰球”。
ImageNet让机器学会了鉴识物体,之后的二十年她都在往更深处挖,从识别走向领会,从领会走向生成,从二维走向三维。
她创立的World Labs,首款产物叫Marble,能让用户从笔墨、图片或视频平直生成可投入的三维场景。她的寰球模子内容上卖的是不异东西,空间。一个AI不错感知、生成、裁剪、交互的三维寰球。
她把这个标的叫“空间智能”,说它是语言智能之后的下一个前沿。World Labs在2025年11月推出Marble,2026年2月估值一经冲到50亿好意思元,也融了10亿好意思元。
杨立昆亦然作念寰球模子的,但是他的寰球模子和李飞飞的寰球模子是根柢上的两个物种,究其原因是他俩的筹议标的不同。
杨立昆从自监督学习起程的,他的中枢执念是让AI不靠海量标注数据,像东谈主不异通过不雅察来领会寰球。他的JEPA架构不生成像素,转而在潜空间里量度寰球的玄虚情景变化。
V-JEPA 2用了一百万小时互联网视频作念预磨真金不怕火,然后加上不到62小时的机器东谈主视频,就能让Franka机械臂在零样本条目下完成拾取放手。
2026年3月,杨立昆发布了寰球模子LeWorldModel,把端到端的JEPA褂讪磨真金不怕火作念到了只用两个亏本项,一千五百万参数在一张GPU上跑几个小时就能作念遐想。
杨立昆的寰球模子卖的是基于逻辑推演的贯通结构。他要让AI在潜空间里领会寰球怎么演化,不靠背语言、不靠记模式。他对寰球模子的领会就成了“AI怎么领会看见的东西”。
比如这有一把椅子,它不可诬捏出现,它得立在大地上才站得住。那么通过椅子的质地,就能推上演大地给了些许守旧力。

是以,这亦然为什么我以为,“瞎想力”比“寰球模子”更接近林俊旸这家公司的确凿命题。寰球模子仅仅器具,真刚巧钱的,是让机器少用施行犯错的本领。

备案号: