DeepSeek 모델은 DeepSeekMoE를 시작으로 DeepSeek-V2, DeepSeek-V3를 거쳐 현재는 DeepSeek-R1 버전까지 발전하였으며 특히 DeepSeek-R1은 추론(reasoning) 성능에서 뛰어난 결과를 보이고 있습니다. DeepSeek 시리즈의 모든 모델 아키텍처 MoE (Mixture of Experts)를 기반으로 설계되었습니다. 그렇다면 DeepSeek-R1은 어떤 방식으로 학습되었을까요?
DeepSeek-V3 버전에서는 모델이 기본적인 질문에 답변할 수 있는 능력을 갖추기 위해 감독 학습(Supervised Fine-Tuning, SFT) 단계를 필요로 하였습니다. 이 과정에서는 추론 데이터와 비추론 데이터를 모두 포함한 대규모 감독 데이터셋이 사용되었으며 이는 모델의 성능 향상을 위한 핵심 요소로 작용하였습니다.
반면, DeepSeek-R1-Zero는 이러한 SFT 단계를 생략하고, 강화 학습(Reinforcement Learning, RL) 을 직접 적용함으로써 모델이 외부 감독 없이 스스로 진화할 수 있도록 설계되었습니다. 이 방식은 지속 학습(continuous learning) 을 가능하게 하며 결과적으로 모델이 추론 능력을 자율적으로 습득할 수 있도록 합니다.
DeepSeek-R1-Zero에서 사용된 보상 모델(Reward Model)은 기존의 학습 알고리즘에서 흔히 사용되는 응답 점수 기반의 reward model이 아닌, 규칙 기반(rule-based) 접근 방식을 통해 보상이 주어졌습니다. 이 보상은 크게 두 가지 기준으로 구성되었는데, 하나는 정확한 답변에 대한 보상, 다른 하나는 정해진 형식(format)에 부합하는 응답에 대한 보상이었습니다.
GRPO(Grounded Policy Optimization) 학습이 완료된 후, DeepSeek-R1-Zero는 사실성(Verifiability), 자기 반성(Self-reflection), 긴 연쇄적 사고(CoT, Chain-of-Thought) 생성 능력 등을 갖추고 있음이 확인되었습니다. 해당 모델은 감독 데이터 없이도, 오직 강화 학습(RL)만으로 추론 능력을 스스로 학습할 수 있었으며, 정답을 유도하기 위한 주석이 있는 데이터 없이도 의미 있는 reasoning 능력을 습득할 수 있었습니다. 또한 RL 반복 학습이 진행됨에 따라, 모델은 점차 자신의 답변을 재검토하고, 반성하며, 대안적 해결책을 탐색하는 행동을 스스로 보이기 시작하였습니다. 이 과정은 추론 능력의 강화를 효과적으로 유도하였습니다.
그럼에도 불구하고 DeepSeek-R1-Zero는 읽기 능력 부족(reading weakness)과 언어 혼합(language mixing) 등의 한계점을 나타냈습니다. 이를 개선하기 위해 DeepSeek-R1이 새롭게 도입되었으며, 보다 정제된 RL 및 SFT 학습이 적용되었습니다.
DeepSeek-R1의 RL 학습 과정은 두 번으로 나뉘며, 첫 번째는 모델의 추론 능력을 향상시키기 위한 것이고, 두 번째는 인간의 선호도에 맞게 조정하기 위한 것입니다. 또한, 두 번의 SFT 학습도 함께 진행되었으며, 첫 번째는 기본 모델의 추론 능력을 훈련시키기 위한 것이고, 두 번째는 비추론 능력을 훈련시키기 위한 것입니다.
강화 학습 알고리즘
DeepSeek에서는 강화 학습 방법으로 Group Relative Policy Optimization (GRPO) 알고리즘을 제안하였습니다. GRPO는 서로 다른 행동을 비교하고, 다양한 관측 집단을 통해 작고 통제된 방식의 업데이트를 수행함으로써 모델이 더 효과적으로 학습할 수 있도록 돕습니다. 이 방식은 정책(policy)을 최적화할 때 그룹의 점수를 기반으로 우도(advantage)를 추정하므로, 별도의 critic 모델이 필요하지 않다는 장점이 있습니다.
- GRPO는 하나의 그룹 내에서 행동들을 비교함으로써 정책(policy)의 업데이트 변화 폭을 줄여, 학습의 안정성을 높입니다.
- 제어된 업데이트는 KL 제약 조건을 통해 정책이 불안정해질 수 있는 큰 변화를 방지합니다.
- GRPO는 가능한 모든 행동을 평가할 필요가 없기 때문에, 계산 효율성을 높이는 데 기여합니다.
- GRPO는 PPO(Proximal Policy Optimization)와 유사하지만, PPO와 달리 critic 모델이 없으며, 각 입력에 대해 그룹 기반 샘플링을 수행하여 절대적 성능이 아닌 상대적 성능에 초점을 맞춥니다.
콜드 스타트 (Cold Start)
DeepSeek-R1의 학습 파이프라인에서 첫 번째 단계는 DeepSeek-R1-Zero가 직면한 문제들을 해결하는 데 핵심적인 역할을 합니다. 이 단계에서는 SFT 감독 학습 모델을 훈련시켜 읽기 능력(reading ability)과 출력 품질(output performance)을 향상시키며, 이후 진행될 첫 번째 RL 학습 과정에 대비합니다.
콜드 스타트 학습을 위한 데이터셋을 생성하기 위해, 연구진은 다양한 접근 방식을 시도하였습니다:
- Few-shot 방식 활용: 베이스 모델에 긴 Chain-of-Thought(CoT)가 포함된 프롬프트를 제공합니다. 예를 들어, 수학과 같은 복잡한 문제에 대해 여러 단계를 포함한 해결 과정을 제시합니다.
- 모델 프롬프트를 직접 사용: 베이스 모델이 프롬프트를 바탕으로 자신의 해결 과정을 반성(reflection)하고 검증(verification)하는 자세한 답변을 생성하도록 유도합니다.
- DeepSeek-R1-Zero의 출력 재사용: DeepSeek-R1-Zero에서 읽을 수 있는 출력을 선별하여 가공 및 정제하여 사용합니다.
- 출력 형식 설계: 가독성을 향상시키기 위해, 구조화된 출력 포맷을 새롭게 설계합니다.
이러한 방법이 DeepSeek-R1-Zero에 비해 갖는 장점은 다음과 같습니다:
- 지정된 포맷에 따라 출력함으로써 가독성을 향상시킵니다.
- 복잡한 추론 과제에서 모델의 일반화 능력을 향상시킵니다.
- 구조화된 데이터와 인간의 경험을 통해 모델의 성능을 강화합니다.
추론 중심의 강화 학습(RL) 훈련
콜드 스타트(Cold Start) 단계를 마친 후, 모델은 콜드 스타트 데이터를 기반으로 강화 학습(RL)을 계속 수행하게 됩니다. 이 훈련은 특히 코딩, 수학, 과학, 논리적 추론과 같은 과제에 중점을 두고 이루어집니다. 이 과정에서 모델이 언어를 혼동하는 현상이 관찰되었으며, 이를 해결하기 위해 언어 혼용 문제를 완화하는 특정한 보상 모델(reward model)이 설계되어 도입되었습니다.
훈련 과정
- 정확성에 대한 보상: 보상 시스템은 모델이 명확하게 정의된 문제에 대해 올바른 정답을 생성할 수 있도록 설계되었습니다.
- 언어 혼용 최소화: RL 학습 중 자주 발생하는 문제 중 하나는 프롬프트에 여러 언어가 포함될 경우, CoT 출력에서 언어가 일관되지 않게 혼합되는 현상입니다.
이를 해결하기 위해, 저자들은 CoT 내 목표 언어 단어의 비율을 기준으로 언어 일관성에 대한 보상 항목을 도입하였습니다. - 학습 수렴: 학습은 모델이 수렴할 때까지 지속되며, 그 결과 안정적이고 신뢰할 수 있는 성능을 다양한 과제에서 보여주게 됩니다.
학습 결과
강화 학습(RL) 이후 모델은 MATH-500이나 AIME 2024와 같은 데이터셋에서 우수한 성능을 달성하였습니다.
또한 모델은 논리적이고 일관된 추론 능력을 바탕으로 정확하고 명료한 결과를 생성하는 데에 성공하였습니다.
리젝션 샘플링(Rejection Sampling)과 SFT
이 과정의 목표는 다음과 같습니다: 모델의 추론 능력을 향상시키기 위해, 우수한 추론 출력을 선별하고 정제하여 학습에 활용합니다. 글쓰기, 롤플레잉, 번역 등 비추론적 일반 능력의 범위를 확장합니다. 마지막으로, 논리적으로 일관된 응답을 생성하기 위해 혼란스러운 출력은 필터링하고, 가독성이 높고 일관성 있는 응답만을 남김으로써 모델의 응답 품질을 개선합니다.
추론 데이터 처리
- 리젝션 샘플링 (Rejection Sampling): RL 학습 이후, 모델의 출력에는 부적절한 내용이 포함될 수 있습니다.
이를 해결하기 위해 리젝션 샘플링 기법을 활용하여, 훈련된 모델로부터 유효한 출력만 선별하고, 이 데이터를 SFT(지도 학습) 모델 훈련에 활용하였습니다. - 이 단계에서, 다양한 도메인의 데이터를 포함시켜 데이터셋을 확장하였습니다.
- 모델의 출력이 혼란스럽거나 이해하기 어려운 경우가 존재하기 때문에 연구진은 언어가 일관되지 않은 출력, 지나치게 긴 단, 코드가 포함된 CoT 등을 필터링하여 데이터 정제(cleaning)를 수행하였습니다. 각 추론 과제에 대해 다양한 응답을 샘플링한 후, 정답인 응답만 선별하였습니다. 그 결과, 약 60만 개(600K)의 추론 관련 학습 샘플을 수집하는 데 성공하였습니다.
비추론 데이터
이 데이터는 글쓰기, 질문응답(QA), 번역 등과 같은 비추론 과제를 포함합니다. 이러한 과제에 대해서는 DeepSeek-V3의 파이프라인을 활용하였으며, DeepSeek-V3에서 이미 수집된 일부 SFT 데이터셋을 재사용하였습니다. 또한, 특정 비추론 과제의 경우, DeepSeek-V3를 호출하여 잠재적인 Chain-of-Thought(CoT)를 생성함으로써, 질문에 대한 더 나은 추론 과정을 제공하고자 하였습니다. 그 결과, 약 20만 개(200K)의 비추론 학습 샘플이 생성되어 모델 훈련에 활용되었습니다.
문맥(context)을 위한 강화 학습 (RL)
이 단계는 DeepSeek-R1을 미세 조정하여, 모든 추론(task reasoning) 및 범용 목적(general-purpose) 과제를 인간의 선호도에 맞게 처리할 수 있도록 하는 데 중점을 둡니다. 이를 통해 모델이 유용하고, 해가 없으며, 효율적인 응답을 제공하도록 보장합니다.
주요 목표는 DeepSeek-R1을 더 유연하고 강력한 모델로 개선하는 것입니다. 이 모델은 수학, 논리, 프로그래밍 등 높은 수준의 사고를 요구하는 작업을 수행할 수 있어야 하며, 동시에 창의적인 글쓰기나 사용자 선호에 맞는 질문 응답과 같은 작업도 효과적으로 처리해야 합니다.
훈련 과정은 다음과 같이 수행되었습니다.
- 추론 데이터: 논리 과제에 대해서는 규칙 기반 보상 모델을 사용하였습니다.
이 보상은 문제 해결의 정확성과 논리적 일관성에 중점을 둡니다. - 일반 데이터: 일반적인 과제에 대해서는 인간의 선호를 모방한 보상 모델을 활용하였습니다.
이 모델은 응답의 유용성, 가독성, 무해성을 기준으로 평가합니다.
이 과정을 거친 후, 모델은 다양한 벤치마크에서 업무 성능이 향상되었으며, 사용자 기대에 부합하는 결과를 생성하고 더 친화적인 인터페이스를 제공하게 되었습니다.
지식 증류(Distillation)
DeepSeek-R1과 같은 대규모 모델은 추론(inference) 시 많은 연산 자원을 필요로 하며,
실행에 높은 비용이 든다는 단점이 있습니다. 따라서, 이러한 대형 모델의 지식을 더 작은 모델에 증류(distill)함으로써 더 빠르고 가벼운 모델을 만들 수 있으며, 이는 제한된 하드웨어 환경에서도 쉽게 배포 및 실행할 수 있다는 이점을 제공합니다.
- DeepSeek-R1에서는, DeepSeek-R1의 추론 능력을 더 작은 모델에 지식 증류(distillation)하였습니다.예를 들어, Qwen 7B32B, LLaMA 7B13B와 같은 소형 모델들이 이에 해당합니다.
- 소형 모델의 학습에는 약 80만 개(800K)의 다양한 추론 및 비추론 샘플 데이터가 사용되었습니다.
- DeepSeek-R1의 지식은 지도학습(supervised learning)과 보상 유도 증류(reward-guided distillation)를 통해 이전되었습니다.
훈련을 마친 이러한 모델들은, 기존의 base 모델들보다 우수한 추론 능력을 보여주었으며, OpenAI의 o1-mini 모델보다 더 높은 성능을 발휘하였습니다.
마무리
DeepSeek는 여러 벤치마크 지표와 모델의 추론 능력 측면에서 높은 성과를 거두었습니다. 이는 OpenAI와 경쟁할 수 있는 가능성을 열어주며, 작은 모델로도 품질을 저하시키지 않으면서 확장 가능한 AI 솔루션을 제공할 수 있는 기반이 되었습니다. 하지만, DeepSeek는 여전히 언어적 한계를 가지고 있으며, 영어와 중국어 중심의 데이터에 편중되어 있다는 점이 한계로 남아 있습니다.