🐋 使用 Llama.cpp 运行 DeepSeek R1 Dynamic 1.58-bit
向 UnslothAI 致敬,感谢他们的不懈努力!多亏了他们的辛勤工作,我们现在可以在 Llama.cpp 上运行 完整的 DeepSeek-R1 671B 参数模型的动态 1.58-bit 量化形式(压缩至仅 131GB)!最棒的是?您不再需要为了需要大规模企业级 GPU 或服务器而绝望 — 可以在您的个人机器上运行此模型(尽管对于大多数消费级硬件来说速度较慢)。
note
Ollama 上唯一真正的 DeepSeek-R1 模型是这里提供的 671B 版本:https://ollama.com/library/deepseek-r1:671b。其他版本是蒸馏模型。
本指南专注于使用与 Open WebUI 集成的 Llama.cpp 运行 完整的 DeepSeek-R1 Dynamic 1.58-bit 量化模型。在本教程中,我们将演示使用 M4 Max + 128GB RAM 机器的步骤。您可以根据自己的配置调整设置。
步骤 1:安装 Llama.cpp
您可以:
- 下载预构建的二进制文件
- 或自行构建:按照此处的说明:Llama.cpp 构建指南