메모리 효율 75% 개선, 디코딩 속도 6배 향상하며 성능까지 뛰어넘다
Moonshot AI 연구진이 대규모 언어모델(LLM)의 근본적인 효율성 한계를 극복한 새로운 어텐션 아키텍처 'Kimi Linear'를 공개했다. 이 기술은 전통적인 풀 어텐션 방식이 가진 2차 시간 복잡도와 선형적으로 증가하는 KV 캐시 문제를 해결하면서도, 오히려 성능을 향상시킨 획기적인 성과로 평가받고 있다. 특히 AI 에이전트와 강화학습 기반 테스트 타임 스케일링이 중요해지는 차세대 AI 환경에서, Kimi Linear는 실시간 상호작용과 장시간 추론이 필요한 작업의 병목 현상을 해소할 핵심 기술로 주목받고 있다.
세밀한 게이팅으로 메모리 관리 능력 극대화
Kimi Linear의 중심에는 'Kimi Delta Attention(KDA)'이라는 혁신적인 선형 어텐션 모듈이 자리하고 있다. 기존 Gated DeltaNet이 헤드 단위의 거친 망각 게이트를 사용했다면, KDA는 채널 단위로 세분화된 게이팅 메커니즘을 도입했다. 이는 각 특성 차원이 독립적인 망각률을 유지할 수 있게 하여, 제한된 유한 상태 RNN 메모리를 훨씬 정밀하게 제어할 수 있게 만든다. 연구진은 이러한 세밀한 제어가 모델이 중요한 정보는 보존하고 불필요한 정보는 선택적으로 제거하는 능력을 크게 향상시킨다고 설명한다.
더 나아가 KDA는 Diagonal-Plus-Low-Rank(DPLR) 전이 행렬의 특수 변형을 활용한 맞춤형 청크 단위 알고리즘을 채택했다. 이 접근법은 일반 DPLR 공식 대비 계산량을 대폭 줄이면서도 고전적 델타 룰과의 일관성을 유지한다. 실제 벤치마크에서 KDA 커널은 시퀀스 길이 64K까지 DPLR 대비 약 2배의 실행 속도 향상을 보였으며, 이는 하드웨어 효율성 측면에서 중요한 개선이다.
3:1 하이브리드 전략으로 장단점 균형 확보
순수 선형 어텐션이 가진 가장 큰 약점은 정밀한 메모리 검색과 정확한 복사 작업에서의 한계였다. Kimi Linear는 이를 해결하기 위해 KDA 레이어 3개당 풀 어텐션(MLA) 레이어 1개를 규칙적으로 배치하는 레이어 단위 하이브리드 구조를 채택했다. 연구진의 광범위한 ablation 실험 결과, 이 3:1 비율이 성능과 처리량 간 최적의 균형점인 것으로 확인되었다. 더 높은 비율(7:1)은 훈련 손실은 유사했지만 검증 성능이 현저히 떨어졌고, 더 낮은 비율(1:1)은 추론 오버헤드가 과도하게 증가했다.
흥미롭게도 연구진은 모든 MLA 레이어에 위치 인코딩을 사용하지 않는 NoPE(No Position Encoding) 방식을 적용했다. 위치 정보 인코딩의 책임을 전적으로 KDA 레이어에 위임한 이 설계는 여러 실용적 이점을 제공한다. 첫째, MLA를 추론 시 고효율의 Multi-Query Attention으로 변환할 수 있게 하며, 둘째, 장문맥 훈련 시 RoPE 주파수 기반 조정이나 YaRN 같은 복잡한 방법이 불필요해진다. 실험 결과 Kimi Linear는 128K 문맥 장문맥 벤치마크에서 RoPE를 사용한 변형보다 일관되게 우수한 성능을 보였다.
공정한 비교에서 입증된 실전 우수성
연구진은 1.4조 토큰의 동일한 학습 데이터와 레시피로 48B 총 파라미터(활성화 3B) 규모의 MoE 모델을 훈련시켜 공정한 비교를 수행했다. 단문맥 사전학습 평가에서 Kimi Linear는 MMLU-Pro에서 51.0점을 기록해 MLA(47.2점)와 GDN-H(47.9점)를 크게 앞섰다. BBH, HellaSwag, TriviaQA 등 일반 지식 벤치마크 전반에서도 최고 성능을 달성했으며, GSM8K 수학 추론과 CRUXEval 코드 작업에서도 우위를 보였다. SFT 이후에도 이러한 성능 우위는 지속되어, AIME 2025, HMMT 2025, LiveCodeBench 등 어려운 추론 벤치마크에서 두 베이스라인을 능가했다.
장문맥 성능에서 Kimi Linear의 강점은 더욱 두드러졌다. RULER 128K 벤치마크에서 84.3점으로 최고 점수를 기록하며 동시에 3.98배의 가속을 달성해 파레토 최적점을 형성했다. RepoQA에서는 68.5점으로 MLA(63.0점)와 GDN-H(63.0점)를 상당한 격차로 앞섰으며, 전체 장문맥 벤치마크 평균에서도 54.5점으로 가장 높은 점수를 기록했다. 강화학습 훈련 실험에서도 Kimi Linear는 MATH500과 AIME 2025 테스트셋 모두에서 훈련 전 과정에 걸쳐 MLA보다 빠른 수렴 속도와 높은 최종 정확도를 보여, 추론 집약적 장문 생성 작업에서의 효율성을 입증했다.
실사용 환경에서의 효율성 이점
실제 추론 환경에서 Kimi Linear의 효율성 개선은 더욱 인상적이다. 프리필 단계에서 KDA는 세밀한 감쇠 메커니즘에도 불구하고 GDN-H와 거의 동일한 지연시간을 유지하며, 시퀀스 길이가 512K를 넘어서면 MLA 대비 2.3배, 1M 토큰에서는 2.9배 빠른 속도를 보였다. 디코딩 단계에서는 이점이 더욱 극대화되어, 1M 토큰 문맥에서 토큰당 출력 시간이 MLA의 11.48ms 대비 1.84ms로 6.3배 빠른 속도를 달성했다. 이는 고정 크기 상태(헤드당 128×128)를 유지하여 KV 캐시를 최대 75% 절감한 결과이며, 절약된 메모리를 더 큰 배치 크기에 할당하여 전체 처리량을 극대화할 수 있게 한다.
비즈니스 기회와 시장 진입 전략
Kimi Linear의 기술적 우위는 여러 상업적 기회를 창출한다. 클라우드 API 서비스 시장에서는 동일 하드웨어에서 더 많은 동시 요청을 처리할 수 있어 운영비를 대폭 절감할 수 있다. 100만 토큰 문맥에서 6배 이상 빠른 응답 속도는 법률 문서 분석, 의료 기록 검토, 금융 리포트 생성 등 장문서 처리가 필수인 B2B 수직 시장에서 경쟁 우위를 제공한다. 특히 실시간성이 중요한 고객 서비스 챗봇이나 대화형 분석 플랫폼에서 사용자 경험 개선이 즉각적으로 체감될 것이다.
엔터프라이즈 온프레미스 배포 시장에서는 제한된 GPU 자원으로도 100만 토큰 이상의 문맥을 처리할 수 있다는 점이 핵심 차별화 요소다. 대규모 코드베이스 분석, 전사 문서 검색, 규제 준수 모니터링 시스템 구축에 최적이며, vLLM과의 완벽한 통합 덕분에 기존 LLM 인프라에 드롭인 방식으로 교체 가능하다. 캐싱이나 스케줄링 인터페이스 수정이 불필요하여 도입 장벽이 낮다는 점도 채택을 가속화할 요인이다.
가장 주목할 만한 응용 분야는 AI 에이전트 플랫폼이다. 테스트 타임 스케일링과 강화학습 환경에서 검증된 성능은 장시간 추론과 복잡한 의사결정이 필요한 자율 에이전트 개발에 이상적이다. 툴 사용, 저장소 수준 코드 분석, 멀티턴 상호작용이 필요한 작업에서 추론 처리량 증가는 에이전트의 실용성을 크게 향상시킬 것이다. 연구진이 모든 구현체와 모델을 오픈소스로 공개함에 따라, 스타트업과 연구 기관의 빠른 프로토타이핑과 맞춤형 개발이 가능해져 생태계 형성이 가속화될 전망이다.
논문 출처
본 연구는 Moonshot AI의 Kimi Team이 수행하였으며, 2025년 11월 1일 arXiv 프리프린트 서버에 arXiv:2510.26692v2 [cs.CL] 식별번호로 게재되었다. 연구진은 논문 공개와 함께 GitHub를 통해 KDA 커널 및 vLLM 구현체 소스코드를 오픈소스로 제공하고 있으며, Hugging Face 플랫폼에서 사전학습 및 instruction-tuned 모델 체크포인트(Kimi-Linear-48B-A3B-Instruct)를 배포하여 학계와 산업계의 즉각적인 활용을 지원하고 있다.





