읽게 된 계기환자별로 데이터의 양이 다를 수 있다. 어떤 환자는 짧은 입원으로 데이터가 별로 없는 반면, 어떤 환자는 긴 입원으로 데이터가 굉장히 많을 수 있다. LLM Finetuning에 있어서 학습할 컨텍스트 길이에 있어 차이가 나는 것은 문제가 될 수 있다. 데이터 양이 많은 환자에 치중되어 학습할 수 있으며, 일정 토큰(컨텍스트)를 넘어버리면 그냥 잘라버리는 Truncation 방법이 있지만 최적의 방법은 아니다. 이 논문에선 긴 컨텍스트를 효율적으로 학습할 수 있게 하는 Sparse Attention Mechanism들에 대해 설명한다. Sparse Attention Mechanism은 관여하는 토큰 수에 따라 Global Attention, Local Attention, 그리고 두가지를 ..