1. Motivation — 문제 정의 & 이전 연구의 한계언어 모델링의 이중성언어 모델링은 본질적으로 두 가지 이질적인 하위 작업을 동시에 수행해야 한다.작업 유형특성이상적인 처리 방식조합적 추론 (compositional reasoning)동적, 문맥 의존적깊은 신경 연산 (MoE)지식 검색 (knowledge retrieval)정적, 로컬, 고정적단순 룩업 (lookup)기존 Transformer의 구조적 비효율표준 Transformer에는 지식 검색을 위한 네이티브 프리미티브가 없다. "Alexander the Great"처럼 고정된 멀티토큰 엔티티 하나를 인식하는 데도 수 개의 Attention + FFN 레이어를 소비해야 한다. 이는 런타임에 정적 룩업 테이블을 비싼 연산으로 재구성하는 것과 ..