x.com恒星Fri, May 29, 2026, 7:06 PM PDT
score 16.4
952likes139RT20reply
Theory explains why AI learns faster predicting hidden patterns than raw tokens
Original: 这篇论文终于把为什么AI学东西比人慢的原因讲透了:问题不在数据量,而在学习目标。它从样本复杂度理论出发,证明预测自身的隐表示(latent)比预测原始token在数据效率上有指数级优势——PCFG数据上,token级SSL需要Ω(exp(L))样本,latent预测仅需O(log L)。这首次从理论上解释了data2vec、JEPA等隐空间方法为何高效,也暗示了H-JEPA那种显式多尺度堆叠可能是
Source: x.com ↗
Writing ELI5 summary…