DeepSeek

DeepSeek #

DeepSeek的产品线 #

  • 2024/12/26 DeepSeek V3 (指令模型)
  • 2025/1/20 推理模型DeepSeek R1 (媲美OpenAI o1)
  • 2025/1/28 Janus-Pro和JanusFlow等一系列多模态模型,参数从1B到7B不等

指令模型和推理模型

  • 指令模型:主要目的是理解和执行用户的自然语言指令,生成符合要求的动态输出。适用于需要快速响应用户指令的任务,如智能对话助手、任务执行和内容生成。例如,OpenAI的GPT-4o和DeepSeek V3都属于指令模型。
  • 指令模型:专注于逻辑推理、数学计算或知识推断问题,输出确定性结论。侧重于逻辑链推导和多步骤分析,通常需要复杂的推理引擎和算法支持。例如,推理模型在处理数学题、科学计算和逻辑定理证明时表现出色。适用于需要深度逻辑推理和复杂问题解决的场景,如数学推理、代码生成和科学计算。例如,OpenAI的o1, o3-mini和DeepSeek V3都属于指令模型。

DeepSeek V3 #

Model#Total Params#Activated ParamsContext LengthDownload
DeepSeek-V3-Base671B37B128K🤗 Hugging Face
DeepSeek-V3671B37B128K🤗 Hugging Face

DeepSeek R1 #

满血版本R1:

Model#Total Params#Activated ParamsContext LengthDownload
DeepSeek-R1-Zero671B37B128K🤗 HuggingFace
DeepSeek-R1671B37B128K🤗 HuggingFace

6个蒸馏版本(6个小模型,最小的1.5B)。蒸馏版本的小模型,可本地部署,离线使用,数据安全:

ModelBase ModelDownload
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct🤗 HuggingFace

Janus #

ModelSequence LengthDownload
Janus-1.3B4096🤗 Hugging Face
JanusFlow-1.3B4096🤗 Hugging Face
Janus-Pro-1B4096🤗 Hugging Face
Janus-Pro-7B4096🤗 Hugging Face

DeepSeek服务 #

© 2025 青蛙小白 | 总访问量 | 总访客数