浮躁的科研和胡扯的自媒体

自从世界进入了自媒体时代,所有人,包括阿猫阿狗,都可以在网上煞有介事的装成专家发表观点。在进入了 AI 时代之后,这种现象就更加严重了,写文章再也不需要文化水平,AI 写的文章不管自媒体作者看不看得懂都可以发到自己的帐号上,然后冒充专家来骗取流量和粉丝。

前两天,美国股市出现了大跌,正好某个公司在前一天发表了一篇论文,说有技术可以把 LLM Inference 的 KV Cache 压缩到 3-bit。然后这时候就有不少自媒体作者就开始在网上大肆吹嘘这个技术,说什么是因为这个技术的出现,让 LLM Inference 对计算机存储不再有那么大的需求了,所以才导致了存储公司的股价暴跌,继而引发了整个股市的暴跌。这些人完全不懂偶然性和因果性的区别,完全是一派胡言。

抽了点时间大概看了下这篇论文,尽管没有深入查看细节。

这篇论文虽然号称能把 KV Cache 压缩到 3-bit,且对模型精度几乎不影响,这些东西 Offline 做是没问题的,但是 LLM Inference 都是 Online 的,对 Latency 和 Throughput 的要求极高。不过这篇论文没有做 Online 性能的测试和讨论这个技术在 Online 场景下的性能表现,所以这个技术在 Online 场景下是否可行还不得而知。更有意思的是,这个论文的博客里却自己悄悄补了一个实验和图,说用了这个技术之后 Attention 的性能提高了 8 倍。但是自媒体作者从来没有提到这个 Attention 的 Baseline 是 FP32 的。Baseline 很差的东西是不可信的,而且如果这个技术真的那么好,那早就应该放进论文里了,为什么要放在博客里悄悄补充呢,而且缺乏实验细节?另外,我注意到这个论文的作者他们之前的一些前几代技术的论文发表中,倒是做了 Online 性能的测试和讨论。这就不得不令人怀疑这个技术在 Online 场景下的性能了。更滑稽的是,这个论文搞了个网站,在这个网站里他们也在吹自己说他们的技术把股市直接搞得雪崩。

另外,两年前其实就有比较优秀的 KV Cache 压缩技术能够几乎的无损把 KV Cache 压缩到 5-bit 了,当时市场上也没那么大的反响。即便那个技术在论文里做了比较实验,展示了其在 Online 场景下的能够提高系统 Batch Size 和 Throughput 的优秀表现,但是至今其实也不清楚这个技术是否在各大公司的 LLM Inference 系统里被落地了。

当搞钱和成名成了主要目的之后,科研就变得浮躁了,天天在网上吹牛逼,反倒是某些真的优秀的技术和论文得不到应有的关注了。绝大多数的自媒体也都是草台班子,骗钱博流量才是他们的第一要务。

Author

Lei Mao

Posted on

03-27-2026

Updated on

03-27-2026

Licensed under


Comments