https://arxiv.org/abs/2504.02010, ICLR 2026
When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models
Compression methods, including quantization, distillation, and pruning, improve the computational efficiency of large reasoning models (LRMs). However, existing studies either fail to sufficiently compare all three compression methods on LRMs or lack in-de
arxiv.org
Abstract
Quantization, distillation, pruning 등을 포함한 경량화 기법들은 large reasoning models (LRMs)의 컴퓨팅 효율성을 향상시킴. 하지만, LRMs 경량화에 대한 상세한 분석은 부재함. 본 연구에서는 LRMs에서 어떻게 경량화 기법을 활용해야 효과적인지 분석함.
Key findings는 다음과 같음
1) Weight 갯수는 LRMs의 reasoning보다 knowledge memorization에 더 큰 영향을 미침
2) Distilled LRMs의 마지막 레이어에서 MLP projection은 가장 중요한 구성요소이며, 모델 압축의 근본적인 문제를 weight 관점에서 새롭게 제공함
3) 기존의 Quantization 방식들은 마지막 layer의 모듈들과 MLP gate projection 부분을 과하게 압축함. 전체 weight의 2%만 압축해도 평균 정확도를 6.57% 향상시킬 수 있음.
Introduction
본 연구에서는 LRMs의 압축이 모델의 추론 능력에 미치는 영향을 성능 벤치마킹과 매커니즘 해석이라는 두 가지 관점에서 분석함
주요 limitations는 다음과 같음
1) Deep-Seek-R1과 같은 LRM은 복잡한 reasoning task에서 좋은 성능을 보이지만, 거대한 크기로 인해 배포 비용이 높고, 실질적인 사용이 어려운 한계가 존재함
2) 이를 해결하기 위해 Quantization, distillation, pruning 등의 압축 기법이 활용되었으나, 기존 연구들은 LRM에서의 압축 성능을 충분히 검증하지 않음
3) 또한, 기존 연구들은 압축기법이 모델의 내부 매커니즘에 미치는 영향을 심층적으로 해석하지 못함
따라서, 본 연구에서는 위 문제를 해결하기 위한 두 가지 접근 방식을 취함
1) 성능 벤치마킹 (Performance Benchmarking)
- Dynamic Quantization, SFT 기반 distillation, SparseGPT 등 다양한 방식으로 DeepSeek-R1모델을 압축하여 이를 다양한 추론 데이터셋에서 평가함. 또한 압축 기법 별 성능 저하 지점 (collapse point)를 비교 분석함.
2) 매커니즘 해석 (Mechanistic Interpretation)
- 차이평균 (Difference of Means) 및 속성 패칭 (attribution patching) 기법을 적용하여 모델 내 각 선형 컴포넌트의 activation 값을 계산함. 이를 통해 backtracking, uncertainty estimation 등 4가지 핵심 추론과 weight 간 인과 관계를 정량화함. 결론적으로는 이러한 전략을 통해 압축 시 어떤 가중치가 중요한지 파악함

Problem Formulation
논문의 저자들은 평가 측면에서의 한계와 심층분석의 한계를 지적하며, 다음과 Mechanistic Interpretation(메커니즘 해석 방법론)을 제안함
- 분석대상: backtracking, uncertainty estimation, example testing, adding knowledge라는 4가지 핵심 추론 행동을 분석 대상으로 삼았으며, GPT-4o를 이용해 출력 토큰에서 해당 행동들의 위치를 태깅
- Difference of means: 특정한 추론행동 $c$의 activation spcae 내 수치적 표현을 구하기 위한 steering vector $u_{ml}^{c}$를 추출함. 구체적으로는 특정 행동 토큰열들의 평균 activation 값에서 전체 출력의 평균 activation 값을 빼는 방식을 활용함. 수식은 다음과 같음.

- Attribution Patching: 특정 행동과 linear module 간 인과관계를 찾기 위해 importance score $I_{ml}^{c}$를 계산함. 이는 정규화된 조향 벡터 $\tilde{u}_{ml}^{c}$와 교차 엔트로피 손실(cross-entropy loss)에 대한 해당 모듈 활성화 값의 기울기(gradient)를 내적(dot product)하여 근사함. $\tilde{u}_{ml}^{c}$와 교차 엔트로피 손실(cross-entropy loss)에 대한 해당 모듈 활성화 값의 기울기(gradient)를 내적(dot product)하여 근사함. $\tilde{u}_{ml}^{c}$와 교차 엔트로피 손실(cross-entropy loss)에 대한 해당 모듈 활성화 값의 기울기(gradient)를 내적(dot product)하여 근사함. 이 $I_{ml}^{c}$ 점수가 높을수록 해당 계층의 선형 모듈이 추론 능력에 더 강한 인과적 관계를 가진다는 것을 의미하며, 이는 양자화 및 가지치기 등에서 '어떤 가중치가 가장 중요한가'를 특정하는 근본적인 척도가 됨

- Decoding Compression Effects: 계산된 weight 중요도를 바탕으로 압축 전후의 성능변화를 해석함. 만약 이상적으로 잘 압축되었다면 원본 모델 (FP)과의 중요도 차이가 최소화되어야 함. 논문에서는 시각화 및 분석에서 상대적 중요도가 감소한 부분만을 추적함. (수치가 감소한 곳을 찾아야 모델의 특정 추론 능력이 어디서 훼손되었는지 파악할 수 있기 때문)
- Scope: 지식증류(distillation), 양자화(quantization), 가지치기(pruning)등의 압축 기법을 분석하였음
- Evaluation Setup: 평가 데이터셋으로는 수학적 추론을 위한 AIME 2024, 논리적 추론을 위한 FOLIO, 시간적 흐름을 추론하는 Temporal sequences, multi-hop 추론을 요구하는 MuSiQue를 활용함. 특히, 지식 암기력을 평가하기 위해 MuSiQue 데이터셋은 RAG(외부 문서 검색)을 허용하지 않았으며, 모델이 압축된 후에도 자체적인 parametric knowledge를 얼마나 잘 유지하고 있는지 평가함
Compression Effects on Reasoning Performance
- Overall performance
- 압축기법 간 비교: 2.51-bit Dynamic Quantization이 압축률이 상대적으로 낮기 때문에 전체 평균 정확도 측면에서도 가장 우수한 성능, distillation모델인 Llama-70B와 Qwen-32B 역시 원본 R1에 근접한 높은 성능 - Pruning의 치명적 결함 존재
- 50%의 희소성 (sparsity)를 적용한 pruning은 모델의 성능을 심각하게 저하시켜 실질적으로 사용 불가능 - Task 난이도에 따른 차이 존재
- AIME 2024 (수학 추론)에서 성능 하락 폭이 가장 크게 두드러져 가장 고난이도의 task임을 확인함. 또한, MuSiQue의 낮은 점수는 LRM들이 RAG 없이는 지식 집약적 task를 수행하는데 충분한 지식을 내제하고 있지 못함을 시사함

Compression Impact on Knowledge and Reasoning
단순한 reasoning 능력과 팩트 기반의 지식 암기 (knowledge memorization) 능력은 압축에 대해 각각 다르게 반응함
- Parameter 수의 중요성
- 모델의 파라미터 수는 reasoning 능력보다 지식 암기 역량에 훨씬 더 큰 영향을 미침.
(파라미터 수가 적은 Qwen 모델이 reasoning 성능은 뛰어났으나, 지식암기가 필수적인 MuSiQue에서는 Llama보다
훨씬 낮은 성능을 기록한것이 이를 뒷받침) - 지식 손실의 위험성
- 가중치를 물리적으로 제거하는 pruning은 quantization보다 모델의 지식 암기력에 훨씬 치명적인 손상을 입힘. 실제로 Pruned Llama-70B는 MuSiQue task에서 30~40%의 sparsity만으로 붕괴함. - 핵심 권장 사항
- 지식 집약적인 task를 수행해야 할 경우, 파라미터의 구조와 개수를 파괴하는 pruning이나 distillation보다는 파라미터 수를 온전히 보존하는 quantization이 기술적으로 타당함.

Distillation Effect on Weights
지식증류 모델에서 어떤 가중치가 reasoning 능력을 주도하는지 attribution patching 기법을 통해 분석함
- 4가지 추론 행동 모에서 final layer의 linear module들이 가장 높은 중요도를 보임. 그중에서도 up_proj가 압도적으로 중요한 핵심 컴포넌트로 식별됨 (Llama-8B, Qwen-7B에서 동일한 관찰)
- Up-proj의 중요성을 증명하기 위해 해당 모듈 하나면 3-bit로 quantization하는 실험을 진행한 결과, 전체 평균 정확도 16.3%나 하락함. 이는 해당 가중치가 reasoning에 필수적인 역할을 한다는 점을 실증적으로 검증함
- 하지만, baseline인 Llama-3.1-8B와 압축 모델을 비교한 결과, 원래의 baseline은 final layer의 집중현상이 관찰되지 않음. 이는 추론 모델의 핵심 가중치 구조는 베이스 모델의 원래 특성이 아니라 지도 미세 조정 (SFT)을 동반한 distillation과정을 통해 새롭게 형성된 것임을 규명함.

Quantization Effect on Weights
양자화 기법이 모델을 압축할 때 추론 성능을 구체적으로 어디서 갉아먹는지 병목지점을 추적함
- SOTA 4-bit 양자화 방식인 AWQ 기법 적용 후 가중치들의 상대적 중요도 감소 폭을 시각화한 결과, 중간 계층의 gate-proj와 final layer의 linear module들이 과도하게 압축되어 본래의 기능적 중요도를 심각하게 상실하는 병목 현상을 발견함. 이러한 현상은 GPTQ에서도 동일하게 나타나 Quantization 방법론들의 공통적인 한계점임을 시사함
- 논문의 저자들은 이 한계를 해결하기 위해 3-bit AWQ를 base로 적용하되, 과도하게 압축되는 마지막 계층의 MLP 모듈들만 원래의 16-bit 정밀도로 예외처리하는 mixed precision방식을 설계함. 전체 가중치의 약 2%만 보호했음에도 불구하고 3-bit AWQ의 평균 정확도가 6.57%가 상승함

Conclusion & Future Work
본 연구에서 발견한 "마지막 계층 모듈과 MLP gate projection의 중요성" 및 "현존 압축 기법의 과도한 압축 문제"는 R1 계열 모델 뿐만 아니라 다른 대형모델에도 보편적으로 적용될 수 있음. 따라서, 향후 대규모 추론 모델 (LRMs) 압축 연구에서는 무작정 균일한 압축을 적용할 것이 아니라 up_proj를 비롯한 마지막 계층의 핵심 중요 가중치들을 정밀하게 식별하고 보호하는 방향으로 나아가야 함을 주장함.
Review
Strong Points
- 기존 연구들이 일반적인 대형 모델 (LLMs)에 집중했던 것과 달리, 대규모 추론 모델 (LRMs)을 대상으로 양자화, 지식증류, 가지치기라는 주요 압축 기법들을 모두 포함하여 벤치마킹한 초기 연구임
- 단순히 성능이 떨어졌다는 현상 관찰에 그치지 않고, 어떤 특정 가중치가 추론 역량 저하의 원인인지 수리적으로 추적함
- 기존 양자화 기법의 문제점을 파악 한 뒤, mixed precision 방식을 통해 다양한 모델에서 성능을 향상시킴. 이를 통해 일반화된 Reasoning 모델 관련 양자화 한계를 해결함
Weak Points
- Mixture-of-Experts (MoE) 아키텍처를 가진 원본 LRM에서도 동일하게 linear module (ex. up_proj 등)이 정확하게 같은 중요도를 가지는지는 검증되지 않음
- Unsloth의 dynamic quantization은 다른 quantization methods (e.g., AWQ, GPTQ)와 calibation data의 크기가 다를 가능성이 존재하며, 적용된 아키텍처도 달라, 압축 기법 간의 직접적인 1:1 성능비교가 어려움
- 모델 압축의 궁극적인 목적은 추론 속도의 향상 및 하드웨어 효율성 확보임. 하지만, 제안한 2% mixed precision 보호 방식은 실제 GPU 텐서 코어 연산에서 병목을 일으키지 않고 실질적인 속도 향상을 가져올수 있는지 입증되지 않음