새로운 데이터와 태스크를 순차적으로 학습하면서도 이전에 배운 지식을 잊지 않는 AI 학습 방식. 배포 후 가중치가 동결되는 현재 LLM의 한계를 넘어 인간처럼 평생 학습하는 AI를 만들기 위한 핵심 연구 분야다.
현재 대부분의 AI 모델은 훈련이 끝나면 가중치가 동결된다. 새로운 것을 학습시키면 이전에 알던 것을 잊어버리는 파국적 망각(catastrophic forgetting) 문제가 생기기 때문이다. 사람은 새로운 언어를 배워도 모국어를 잊지 않지만, 신경망은 새 데이터에 최적화될수록 이전 데이터에서 배운 패턴을 덮어쓴다.
지속 학습은 이 문제를 해결하고자 한다. 고정된 훈련 데이터셋이 아니라 계속 들어오는 새로운 데이터 스트림에서 점진적으로 학습하면서도 기존 지식을 보존하는 것이 목표다. "평생 학습(lifelong learning)"이라고도 불린다.
사이버보안 모델을 생각해보면 이해하기 쉽다. 새로운 공격 패턴이 매일 등장하는데, 모델을 매번 처음부터 재훈련하면 시간과 비용이 너무 많이 든다. 지속 학습이 가능한 모델은 새로운 위협 패턴을 학습하면서도 기존에 알던 공격 유형을 잊지 않는다. 의료 AI가 새로운 임상 데이터를 누적해가며 진단 능력을 향상시키는 시나리오에서도 핵심적으로 필요한 기술이다.
연구자들은 크게 세 방향으로 이 문제를 공략한다. 리플레이(Replay) 방식은 과거 데이터 샘플을 저장해두거나 생성해서 새 학습과 함께 섞어 훈련한다. 정규화(Regularization) 방식은 이전 태스크에서 중요했던 파라미터에 변경 제약을 두어 기존 지식을 보호한다. 아키텍처(Architecture) 방식은 새 태스크마다 별도 모듈이나 레이어를 추가해 간섭을 원천 차단한다.
최근에는 강화학습(RL) 기반 포스트 트레이닝이 파국적 망각을 자연스럽게 완화한다는 연구 결과가 나오며 주목받고 있다. 온-폴리시 RL은 새 태스크에 적응하면서도 기존 행동 분포를 크게 벗어나지 않는 특성이 있기 때문이다.
"지속 학습"이라고 마케팅하는 AI 제품 중 상당수는 실제로 모델 가중치를 업데이트하는 게 아니라 외부 메모리 시스템이나 주기적 오프라인 재훈련을 쓴다. 메모리+검색(RAG)과 진정한 파라메트릭 지속 학습은 근본적으로 다른 아키텍처다. AGI 논의에서 자주 등장하는 "경험에서 실시간으로 배우는 AI"는 아직 연구 단계에 가깝다.