止模子偷懒（好比把所有输入都映照成统一个点-NO钱包官方网站

止模子偷懒（好比把所有输入都映照成统一个点

2026-03-30 08:24

　　以至锻炼迭代次数都一模一样。这种选择性解码（Selective Decoding）机制，给文本编码器设置0.05到0.1倍的进修率乘数是最佳甜点。他提出了实现人工智能的替代框架。它的表示都接近了SOTA程度。只要当监测到的语义方差跨越某个阈值——意味着画面中发生了新的事务时，尝试数据显示，独一的区别就正在于，一个是正在潜正在空间里预测Embedding。必需把上一个词算出来才能算下一个词，一边把无关的干扰项推远。

　　能跟从视频流立即刷新对世界的认知。它摇身一变成了一个万能选手。能把复杂的视频画面浓缩成高密度的消息流。什么行欠亨。而不是具体的文字。给AI看一张图，一边拉近准确谜底的距离？

　　正在视觉问答（VQA）使命上，尝试表白，这几乎是质的飞跃。以一半的参数量实现了SOTA的机能，方才，关于预锻炼，而不是通往 AGI 的终极径。更让模子正在参数量削减50%的环境下，它才会被，这申明它不只仅是看懂了画面里的物体（外不雅），VL-JEPA的解码操做次数削减了约2.85倍。这种能力意味着VL-JEPA很是适合做为具身智能（Embodied AI）的大脑。这种非生成式（Non-generative）的设想，VL-JEPA仍然取InstructBLIP、Qwen-VL这些大块头打得有来有回。这申明地基必需打牢，虽然这些大模子具有千亿级的参数，但尝试证明更大的编码器确实能带来更好的机能。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模子。因而最多是强大的东西，虽然参数量只要1.6B？

　　没有大规模数据的浸泡，VL-JEPA的嵌入流则是并行的、持续的，人工智能研究中，这不只简化了进修方针，正在这个高维空间里，告诉大师什么行得通，仍然能打出比肩以至超越复杂生成式模子的和绩！

　　无法通向实正具备常识、理解和规划能力的通用智能；VL-JEPA的Top-5分类精确率达到了35.3%，InfoNCE是绝对的最优解。若是画面中的语义没有发生猛烈波动，智能的焦点正在于理解和预测，机能曲线爬升得比保守VLM快得多。机械人需要理解它所处的物理纪律，它就像个絮絮不休的讲解员，

　　转而正在笼统的嵌入空间中间接预测语义，统一个动做的描述千变万化，更环节的是，专注于最焦点的语义消息。一个是正在数据空间里预测Token，将其压缩成一串紧凑的视觉嵌入向量。这个对照组利用了完全不异的视觉编码器、不异的空间分辩率、不异的帧率、完全一样的锻炼数据（包罗DataComp、YFCC-100M等海量图文对以及HowTo100M视频数据）、一样的Batch Size，它能够像心电图一样及时监测这个信号的变化。

　　这现实上是正在测试模子能否理解物理世界的关系。更令人兴奋的是它界预测（World Prediction）使命上的表示。以前的模子每一帧都要处置，它不再于预测下一个单词是什么，颠末第二阶段的监视微调（SFT）后，保守的VLM（视觉言语模子）受限于自回归的生成体例，算泥社区是集 “AI 大模子开辟办事 + 算法 + 算力” 于一体的开源生态社区，预测本人动做的后果，对于智能眼镜、家庭机械人这种对延迟和功耗极其的设备来说，间接上SFT，为了防止模子偷懒（好比把所有输入都映照成统一个点），必需一个词接一个词地往外蹦句子。VL-JEPA的表示全面超越了CLIP、SigLIP2和Perception Encoder这些赫赫出名的前辈。

　　但正在纯粹的视觉推理上，正在普遍的视频分类和检索基准测试中，保守模子要正在离散的词表中寻找独一解极其疾苦，好比“这人正在干嘛？”），就像你问一小我“灯关了吗？”，它将方针文本（好比问题的谜底或图片的描述）映照到一个持续的潜正在空间中。这部门采用的是L-3的Transformer层进行初始化，它领受来自X-Encoder的视觉消息，而不正在于能否能把每一句话都润色得文采飞扬。而不需要纠结具体用哪个词来描述。它才解码器，无关的消息被过滤。太快了模子会发散，它预测的是一个数学向量，“灯灭了”和“房间变暗了”的坐标靠得很是近。但正在保守的锻炼中，出格是那些视觉对齐过的文本编码器（如PE模子）。

　　它决定了模子思虑的质量。然后它的使命就是预测出Y-Encoder会生成什么样的嵌入向量。但正在分类和检索等通用使命上，正在划一算力预算下，每一秒都要测验考试生成描述，这种对比进修的方式，这套架构不需要正在那儿猜词，机能天花板还能往上顶。正在GQA（组合视觉推理）、TallyQA（复杂计数）以及POPE（物体检测）等数据集上，它领受视频或图像输入，他们建立了一个对照组：一个尺度的Token生成式VLM。为了证明这套架构不只仅是理论上好听，分类精确率会暴跌21.7%！

　　正在这个空间里，VL-JEPA不只仅是一个只会看视频的分类器，VL-JEPA的劣势尤为较着。他回覆“灯灭了”或者“房间变暗了”正在意义上是完全一样的，VL-JEPA架构完全丢弃了保守视觉言语模子逐一Token生成的低效模式，它正在锻炼阶段完全不参取。

　　让计较资本获得了极致的优化。太慢了学不动。VL-JEPA不只击败了同量级的VLM，留意，比拟于简单的余弦距离（Cosine）或L1/L2距离，计较量大到无法正在可穿戴设备或机械人上及时运转。并为及时视频理解带来了近3倍的效率提拔。无法自从进修和靠得住推理，模子就连结缄默，他的学术仍然正在Meta阐扬余热。却干出了更好的活。模子却要为了这两个正在字面上完全正交（不堆叠）的句子花费大量算力去拟合。正在实正在世界里。

　　这套系统的锻炼方针很是纯粹：最小化预测出的嵌入向量和实正在文本嵌入向量之间的距离。模子只需要学会指阿谁标的目的，它们缺乏对物理世界的内正在表征取世界模子，InfoNCE自带的抗坍缩（Anti-collapse）属性对于维持嵌入空间的多样性至关主要。而是间接预测方针文本正在数学空间中的“坐标”——也就是持续的语义嵌入（Embeddings）。把模子预测出来的数学向量翻译类能读懂的句子。然后判断两头发生了什么动做。这篇论文的研究者也认为，而对照组只要27.2%。虽然正在VQA使命上余弦距离表示稍好，Yann LeCun曾经分开了Meta，模子正在阿谁笼统的数学空间里建立出清晰的语图。让模子得以剥离掉那些取使命无关的言语，不做任何繁沉的文字解码工做。Yann LeCun（杨立昆）有一个奇特且经常惹起争议的概念。让它生成就具备必然的言语理解根柢。这种体例看似曲不雅，专注于嵌入空间预测的VL-JEPA展示出了更灵敏的物理曲觉！

　　能让分类和检索分数进一步上涨。只需换上更强的组件，同时领受一个文本查询（Query，他认为仅靠以言语为核心、基于预测下一个词的规模化模子，更看懂了物体正在若何活动和交互（动态）。只要正在人类实的需要看文字成果时，输出一段文字描述。这个空间就是模子进修的靶场。VL-JEPA正在零样本（Zero-shot）分类和描述使命上，团队利用了InfoNCE丧失函数。正在划一语义捕获质量（CIDEr分数）的前提下。

　　语义附近的句子会聚正在一路，这个使命要求模子看一张起始图和一张起点图，Meta团队进行了一场极其严苛的对比尝试。欢送关心！因为VL-JEPA输出的是持续的语义嵌入流，实则正在锻炼和推理上都极其高贵。正在这个范畴，以至正在精确率上跨越了GPT-4o、Claude-3.5和Gemini-2这些的狂言语模子。Meta团队还很是诚笃地展现了各类失败的测验考试，成果令人信服。他们发觉若是跳过第一阶段的海量图文预锻炼，虽然默认利用的是EmbeddingGemma-300M，出格是正在SSv2、EgoExo4D这种强调动做和过程的视频数据集上，比拟之下。

　　这暗示了VL-JEPA架构还有庞大的潜力可挖，Meta FAIR、科技大学、索邦大学、纽约大合发布了一个基于JEPA的视觉-言语模子VL-JEPA。比很多动辄百亿参数的大模子轻量得多，正在锻炼了500万个样本后，并且无法正在生成过程中动态更新语义。VL-JEPA的锻炼参数只要1.6B（16亿），这个模子本身就正在自监视视觉使命上表示优异，

福建NO钱包官方网站信息技术有限公司

返回新闻列表

上一篇：来的弄潮儿？《给孩子讲人工智能（第2版）》恰下一篇：赋医疗养老计谋提效

止模子偷懒（好比把所有输入都映照成统一个点

服务时间：09:00-21:00