반응형 LLM2 [논문 리뷰] AoT : Atom of Thoughts for Markov LLM Test-Time Scaling Atom of Thoughts for Markov LLM Test-Time ScalingLarge Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during inference. However, as the scale of reasoning increases, existing tearxiv.orgChain-of-Thought의 새로운 지평이라고 하여 AoT, Atom of Thoughts가 새롭게 제안되었다. Question에 대해 Decomp.. 2025. 3. 11. [Paper Review] DeepSeek-R1 : Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek에서 또 새로운 사고를 쳤다. 기존 deepseek-v3만 해도 충분히 파라미터 대비 성능이 잘 나온다고 해서 말이 상당히 많은 상태였는데, 이제는 더 작은 파라미터로 o1과 거의 비슷하거나 그 이상의 성능을 내버리는 모델이 나오고 말았다. 일단 논문을 보고 올거라면 아래의 논문을 보기를 바란다. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinf.. 2025. 1. 29. 이전 1 다음 반응형