Tomoko RD

deepseek在英文圈已经被吹上天了，发现中文圈还有很多非AI业内人士，对deepseek的能力没有一个清晰的认识，所以用中文发一条，先说结论，我认为行业贡献而言：GPT>deepseek>gemini>llama及其他

很多人的着眼点在于他用很少的卡也能训练出效果差不多的模型，但这是结果，更重要的他能做到这一点的技术：

deepseek这次最亮眼的是证明了纯粹的outcome reward RL能够直接把模型提到o1水平，在他出来之前，业内所有人（包括deepmind）都认为需要prm （process…