이미지의 픽셀 표현을 활용해 비전-언어 모델의 시각 토큰 수를 줄이는 압축 파이프라인. 고해상도 이미지나 영상을 처리할 때 컨텍스트 비용과 추론 레이턴시를 낮추기 위해 쓴다.
비전-언어 모델(VLM)은 이미지 하나를 수백에서 수천 개의 토큰으로 변환해 처리한다. 고해상도 이미지나 긴 영상이 입력되면 토큰 수가 폭발적으로 늘어나 컨텍스트 창을 채우고 추론 비용을 끌어올린다. PxPipe는 이 문제를 픽셀 단위 처리 파이프라인으로 접근한다. 모든 픽셀 정보를 그대로 토큰으로 변환하는 대신, 프레임 간 또는 공간 영역 간 중복 정보를 탐지해 단계적으로 압축하는 방식이다.
이 접근의 배경에는 이미지 토큰이 텍스트 토큰보다 훨씬 높은 정보 밀도를 가질 수 있다는 통찰이 있다. 이미지 토큰 1개에서 텍스트 토큰 10개 분량의 정보를 거의 완벽한 정확도로 추출할 수 있다는 연구 결과가 있다. 반대로 생각하면, 텍스트나 문서를 이미지로 렌더링해 전달했을 때 동일한 컨텍스트 창에 훨씬 많은 정보를 담을 수 있다는 가능성이기도 하다.
영상 이해 파이프라인에서 이미지 기반 토큰 압축을 적용하면 프레임 수를 늘리면서도 컨텍스트 예산을 유지할 수 있다. CVPR 2025에서 발표된 PVC(Progressive Visual Token Compression)는 이미지를 정적 영상으로 처리하고 프레임당 기본 64개 토큰이라는 제한 내에서도 공간적 세부사항과 시간적 변화를 함께 보존했다. 이미지와 영상에 별도 전략을 쓰는 대신 하나의 통합된 픽셀 파이프라인으로 두 가지 입력을 처리하는 것이 핵심이다.
텍스트 중심 작업에서도 응용 가능성이 탐색되고 있다. 긴 문서나 코드를 이미지로 렌더링해 이미지 토큰으로 전달하면 텍스트 토큰보다 적은 수로 동일한 정보를 표현할 수 있어, 컨텍스트 길이 한계를 우회하는 전략으로 활용될 수 있다.
시각 토큰 압축률이 높아질수록 차트, 표, 소형 텍스트 같은 세밀한 시각 정보가 손실될 수 있다. 정보 밀도가 높은 영역에는 낮은 압축률을 적용하는 적응형 전략이 필요하다. 또한 압축 모듈 자체를 별도로 학습해야 하므로 기존 VLM에 단순 추가 방식으로 붙이기 어려운 경우가 많다.