Note#1 看待新科技的方式

Apr 01, 2023

∙ Paid

天气好的时候，我喜欢骑脚踏车去两英里之外的公园晒太阳看书。除了看书用的 iPad mini，我常塞上一个 Raspberry Pi。有时我需要将它们接上，做一些编程和验算。

最近这个 Raspberry Pi 又多了一个任务，充当我的离线互联网。它运行着一个70亿参数的大语言模型（7B-parameter large language model, 我运行的是 LLaMA，后来换成了 Alpaca-LoRA ），而整个模型只有 13.48 GB。我惊讶于 Large Language Model (LLM) 可以将那么多互联网和图书数据压缩进这么小的模型里，好奇是否有人对此进行科学定量的研究。

后来朋友给我发了一篇 Ted Chiang 的观点文章——ChatGPT Is a Blurry JPEG of the Web。Ted 进行了一个定性的论述，指出这类 LLM 是一种类似有损压缩的存在，对话或问询时（inference），再通过差值算法做出合理的猜测，将损失的信息填补回去。此前我也看到过类似的论述，认为 LLM 只不过是一种「下一个字的预测算法」。本质而言，这些观点本身没有问题，但在此基础上我想提出我的担忧——在公共空间的讨论中，用某种科技表面的行为来解释这种科技，是一种危险的想法、是自我麻痹。

Note#1 看待新科技的方式

This post is for paid subscribers