对推理模型的一些想法
年前 deepseek 推出了 r1 模型,OpenAI 随后也推出了 o3-mini 模型,简单看了一下 deepseek-r1 的论文,对推理模型有一些想法和疑问。
先叠一个甲,我对 LLM 的原理了解的并不多,如果有什么理解错误的地方,欢迎指正。
从 deepseek-r1 的论文可以看到,是以 deepseek-v3 作为基座模型,通过 RL 进行后训练,得到的一个推理模型。而其他蒸馏的模型,也是在其他开源模型的基础上,使用 r1 的输出作为训练资料。
此时我就有疑问:
- 所谓的推理模型,是否真的在”推理”?
- 是否可以通过 Prompt Engineering 来让基座模型也获得推理能力?比如通过 CoT + few-shot 的方式?