딥시크 R1 리포트 번역 정리(DeepSeek-R1: 강화 학습을 통한 대규모 언어 모델의 추론 능력 유도)

정보교육

@thiskorea 2025. 1. 28. 22:52

DeepSeek-R1: 강화 학습을 통한 대규모 언어 모델의 추론 능력 유도

DeepSeek-R1: 강화 학습을 통한 대규모 언어 모델의 추론 능력 유도 요약 우리는 첫 번째 세대의 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. 사전 단계로 감독된 세밀 조정(SFT) 없이 대규모

docs.google.com