Note#1 看待新科技的方式
天气好的时候,我喜欢骑脚踏车去两英里之外的公园晒太阳看书。除了看书用的 iPad mini,我常塞上一个 Raspberry Pi。有时我需要将它们接上,做一些编程和验算。
最近这个 Raspberry Pi 又多了一个任务,充当我的离线互联网。它运行着一个70亿参数的大语言模型(7B-parameter large language model, 我运行的是 LLaMA,后来换成了 Alpaca-LoRA ),而整个模型只有 13.48 GB。我惊讶于 Large Language Model (LLM) 可以将那么多互联网和图书数据压缩进这么小的模型里,好奇是否有人对此进行科学定量的研究。
后来朋友给我发了一篇 Ted Chiang 的观点文章——ChatGPT Is a Blurry JPEG of the Web。Ted 进行了一个定性的论述,指出这类 LLM 是一种类似有损压缩的存在,对话或问询时(inference),再通过差值算法做出合理的猜测,将损失的信息填补回去。此前我也看到过类似的论述,认为 LLM 只不过是一种「下一个字的预测算法」。本质而言,这些观点本身没有问题,但在此基础上我想提出我的担忧——在公共空间的讨论中,用某种科技表面的行为来解释这种科技,是一种危险的想法、是自我麻痹。