DeepSeek #
DeepSeek的产品线 #
- 2024/12/26 DeepSeek V3 (指令模型)
- 2025/1/20 推理模型DeepSeek R1 (媲美OpenAI o1)
- 2025/1/28 Janus-Pro和JanusFlow等一系列多模态模型,参数从1B到7B不等
指令模型和推理模型
- 指令模型:主要目的是理解和执行用户的自然语言指令,生成符合要求的动态输出。适用于需要快速响应用户指令的任务,如智能对话助手、任务执行和内容生成。例如,OpenAI的GPT-4o和DeepSeek V3都属于指令模型。
- 指令模型:专注于逻辑推理、数学计算或知识推断问题,输出确定性结论。侧重于逻辑链推导和多步骤分析,通常需要复杂的推理引擎和算法支持。例如,推理模型在处理数学题、科学计算和逻辑定理证明时表现出色。适用于需要深度逻辑推理和复杂问题解决的场景,如数学推理、代码生成和科学计算。例如,OpenAI的o1, o3-mini和DeepSeek V3都属于指令模型。
DeepSeek V3 #
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-V3 | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek R1 #
满血版本R1:
Model | #Total Params | #Activated Params | Context Length | Download |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 HuggingFace |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 HuggingFace |
6个蒸馏版本(6个小模型,最小的1.5B)。蒸馏版本的小模型,可本地部署,离线使用,数据安全:
Model | Base Model | Download |
---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | 🤗 HuggingFace |
Janus #
Model | Sequence Length | Download |
---|---|---|
Janus-1.3B | 4096 | 🤗 Hugging Face |
JanusFlow-1.3B | 4096 | 🤗 Hugging Face |
Janus-Pro-1B | 4096 | 🤗 Hugging Face |
Janus-Pro-7B | 4096 | 🤗 Hugging Face |