본문 바로가기
Paper Review/LLM

[논문리뷰] EXAONE Deep: Reasoning Enhanced Language Models

by 서윤하 2025. 3. 18.
반응형
 

EXAONE Deep: Reasoning Enhanced Language Models

We present EXAONE Deep series, which exhibits superior capabilities in various reasoning tasks, including math and coding benchmarks. We train our models mainly on the reasoning-specialized dataset that incorporates long streams of thought processes. Evalu

arxiv.org

오늘(2025.3.18) LG Research Team에서 EXAONE Deep을 발표하였다. 이는 현재 트렌드에 맞추어 Reasoning 성능을 대폭 향상시킨 모델로, 오늘은 이 논문을 읽어보면서 어떤 방식을 통해 reasoning llm을 만들어냈는지 알아보자.

핵심 Contribution

들어가기 앞서 EXAONE Deep은 오픈소스로 공개된 모델이고, 아래와 같은 특징을 가지고 있다. 

일단 성능한번 보고 가실게요

  • Reasoning 최적화된 LLM 모델
  • 현재 기준, 다른 오픈소스 모델들을 같은 파라미터 수로 가정했을 때 비교시 모두 우위에 있음.
  • 새로운 방식을 도입한 것이 아닌(Deepseek-R1에서처럼), 현재 사용되고 있던 Fine-Tuning 기법들을 결합하여 추론 능력을 향상시킴.

만약 바로 사용을 해보고 싶다면 아래의 코드를 참고하길 바란다. readme.md를 따라가면 쉽게 로컬에도 설치할 수 있고, 조만간 사용해보고 한 번 다뤄보도록 하겠다.

 

GitHub - LG-AI-EXAONE/EXAONE-Deep: Official repository for EXAONE Deep built by LG AI Research

Official repository for EXAONE Deep built by LG AI Research - LG-AI-EXAONE/EXAONE-Deep

github.com

Architecture

EXAONE Deep은 작년 말에 공개되었던 EXAONE 3.5의 연장선에 있는 시리즈 모델이다. 이 모델은 주로 영어 - 한국어를 동시에 지원하는 이중 언어 모델로 알려져 있었는데, 이에 대해 Fine Tuning을 진행하여 Reasoning 모델로 탈바꿈 시켰음이 신기할 따름이다. 주로 사용한 학습 기법들에 대해서 하나하나 알아보도록 하자.

Supervised Fine-Tuning(SFT, 지도 미세조정)

가장 먼저 진행되었던 본 학습은, 방대한 추론 시나리오(수학, 과학, 코딩 등)가 포함된 데이터셋을 이용해 모델을 지도학습 하였다. 단순히 문제만 제공하는 것이 아닌, 문제와 문제에 대한 풀이 or 코드라면 코드에 대한 로직 분석 등의 데이터가 담겨 있다고 생각하면 될 것이다.

위의 데이터셋을 한 번 보도록 하자. 이 때 주목할만한 점은 모델이 답변을 생성할 때, <thought> </thought> 내에서 스스로 문제 풀이를 위한 논리적 과정, 자기검증, 오류 수정 등을 수행한 후, 실제 결과 출력은 최종 정답만을 간단히 제시할 수 있다는 데에 있다. 이렇게 학습하였기 때문에, 복잡한 문제를 해결해야 한다고 해도 명확하고 정확하게 풀이할 수 있도록 만들 수 있었던 것 같다. Hallucination을 줄이기 위한 방식이라고 할 수 있고, 사람으로 치면 '말하기 전에 생각하기'를 학습했다고 할 수 있다. 이는 Chain-of-Thought 방식을 사용한 것으로도 판단할 수 있을 것이다.

Direct Perference Optimization(DPO,선호도 학습)

이에 이어서 인간 선호도 데이터를 통해, DPO 기법으로 모델에 대해 Fine-Tuning을 진행하였다. 각 데이터에는 어떤 답변이 '더 나은 답변인가'에 대한 선호도가 들어있고, 학습 과정에서 더 나은 답변 쪽으로 확률을 높여가며 학습을 진행한다고 생각하면 될 것 같다. 이 방식에서 논문에서는 DPO를 사용한다고 하였는데 이게 정확히 어떤 방식인지 알고리즘적인 설명이 나와 있지는 않아서(아무래도), 독자 입장에서는 아무래도 그냥 답변을 함에 있어서 답변의 질 / 일관성을 조금 더 늘리기 위한 과정이라고 생각하면 될 것 같다.

온라인 강화학습(Online-RL)

여기까지 학습이 진행되었다면, GRPO를 사용하여 온라인 RL을 진행하였다. GRPO에 대해서는 아래의 링크에서 보면 될 것 같다. 아무튼 간단하게만 설명하면, 기존에 'critic'이 따로 존재하던 강화학습 기법에서 critic을 없애고 여러 답변을 생성해서 스스로가 스스로의 critic이 되는 방식 정도로만 rough하게 생각하면 될 것 같다.

 

Group Robust Preference Optimization in Reward-free RLHF

Adapting large language models (LLMs) for specific tasks usually involves fine-tuning through reinforcement learning with human feedback (RLHF) on preference data. While these data often come from diverse labelers' groups (e.g., different demographics, eth

arxiv.org

 

Experiments

다음은 모델별로 각 벤치마크에 대해 성능을 비교해본 것인데, 따고바도 DeepSeek-R1(거의 700B의 파라미터...)를 제외하고서는 다 압살하거나 비등비등하게 우위에 있는 모습을 볼 수 있다. 굳이 새로운 방식을 제안하지 않고 기존의 방법을 잘 융합했을 뿐인데 이렇게 나오는 것도 참 신기하다.

Limitations

하지만 모든 추론 모델들이 그렇듯이, EXAONE Deep 또한 이러한 추론 성능은 뛰어나지만 실제 모든 general한 task에서 사용하기에는 조금 무리가 있다고 한다. 아무래도 추론 특화 모델이기 때문에, 모든 task를 위해서라면 EXAONE Deep이 아니라 기존 모델이었던 EXAONE 3.5 instruct를 사용하라고 한다.


오늘은 한번 거의 Technical Report에 가까운, LG의 EXAONE Deep의 report겸 논문을 살펴보았다. 개인적으로 한국에서 이런 모델이 나왔다는 것 자체가 정말 호재라고 생각한다. 딥시크때처럼 문제가 생기지 않기를 바라고, 우리 모두 화이팅이다.

반응형