浮躁的科研和胡扯的自媒体

03-27-202603-27-2026 essay 6 minutes read (About 890 words) visits

自从世界进入了自媒体时代，所有人，包括阿猫阿狗，都可以在网上煞有介事的装成专家发表观点。在进入了 AI 时代之后，这种现象就更加严重了，写文章再也不需要文化水平，AI 写的文章不管自媒体作者看不看得懂都可以发到自己的帐号上，然后冒充专家来骗取流量和粉丝。

前两天，美国股市出现了大跌，正好某个公司在前一天发表了一篇论文，说有技术可以把 LLM Inference 的 KV Cache 压缩到 3-bit。然后这时候就有不少自媒体作者就开始在网上大肆吹嘘这个技术，说什么是因为这个技术的出现，让 LLM Inference 对计算机存储不再有那么大的需求了，所以才导致了存储公司的股价暴跌，继而引发了整个股市的暴跌。这些人完全不懂偶然性和因果性的区别，完全是一派胡言。

抽了点时间大概看了下这篇论文，尽管没有深入查看细节。

这篇论文虽然号称能把 KV Cache 压缩到 3-bit，且对模型精度几乎不影响，这些东西 Offline 做是没问题的，但是 LLM Inference 都是 Online 的，对 Latency 和 Throughput 的要求极高。不过这篇论文没有做 Online 性能的测试和讨论这个技术在 Online 场景下的性能表现，所以这个技术在 Online 场景下是否可行还不得而知。更有意思的是，这个论文的博客里却自己悄悄补了一个实验和图，说用了这个技术之后 Attention 的性能提高了 8 倍。但是自媒体作者从来没有提到这个 Attention 的 Baseline 是 FP32 的。Baseline 很差的东西是不可信的，而且如果这个技术真的那么好，那早就应该放进论文里了，为什么要放在博客里悄悄补充呢，而且缺乏实验细节？另外，我注意到这个论文的作者他们之前的一些前几代技术的论文发表中，倒是做了 Online 性能的测试和讨论。这就不得不令人怀疑这个技术在 Online 场景下的性能了。更滑稽的是，这个论文搞了个网站，在这个网站里他们也在吹自己说他们的技术把股市直接搞得雪崩。

另外，两年前其实就有比较优秀的 KV Cache 压缩技术能够几乎的无损把 KV Cache 压缩到 5-bit 了，当时市场上也没那么大的反响。即便那个技术在论文里做了比较实验，展示了其在 Online 场景下的能够提高系统 Batch Size 和 Throughput 的优秀表现，但是至今其实也不清楚这个技术是否在各大公司的 LLM Inference 系统里被落地了。

当搞钱和成名成了主要目的之后，科研就变得浮躁了，天天在网上吹牛逼，反倒是某些真的优秀的技术和论文得不到应有的关注了。绝大多数的自媒体也都是草台班子，骗钱博流量才是他们的第一要务。

浮躁的科研和胡扯的自媒体

https://leimao.github.io/essay/浮躁的科研和胡扯的自媒体/

Author

Lei Mao

Posted on

03-27-2026

Updated on

03-27-2026

Licensed under

Deep Learning,

Quantization,

Computer Engineering,

Research

浮躁的科研和胡扯的自媒体

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

Comments

Advertisement