Research Hub

대학 자원

대학 인프라와 자원을 공유해 공동 연구와 기술 활용을 지원합니다.

Loading...

논문 리스트

2024
슈퍼토큰 클러스터링 기반 ViT 합성곱 임베딩 모듈 경량화
한국디지털콘텐츠학회
김진영 외 2명
논문정보
Publisher
디지털콘텐츠학회논문지
Issue Date
2024-02-29
Keywords
-
Citation
-
Source
-
Journal Title
-
Volume
25
Number
2
Start Page
485
End Page
494
DOI
http://dx.doi.org/10.9728/dcs.2024.25.2.485
ISSN
15982009
Abstract
Transformer의 자연어처리 분야의 성공 이후 컴퓨터 비전 분야에서 ViT(Vision Transformer)가 등장하였다. ViT는 Transformer와는 다르게 이미지의 특성을 고려하지 않게 이미지를 임베딩 한다. 즉 ViT의 패치 임베딩 모듈은 픽셀간의 지역적인 관계성을 고려하지 않는다. 이를 개선하기 위해 EarlyConv에서 합성곱 임베딩이 제안되었다. 하지만 패치 임베딩에 비해 3배의 학습 파라미터를 사용하여 ViT의 과도한 학습 파라미터를 사용하는 문제를 악화시켰다. 이에 본 논문은 합성곱 임베딩 경량화를 목적으로 ViT의 연산량 감소 기법 중 하나인 슈퍼토큰 클러스터링을 결합한 슈퍼토큰 합성곱 임베딩 모듈을 제안한다. 이는 합성곱 임베딩 레이어를 사용하고 슈퍼토큰 클러스터링 알고리즘을 통해 연관성 있는 토큰을 그룹화하여 합성곱 임베딩에 비해 10배 적은 학습 파라미터로 성능을 향상한다. ImageNet100 이미지 분류 실험을 통해 제안한 방법을 검증한바, 기존 ViT 패치 임베딩 모듈보다 5.08%, 합성곱 임베딩 모듈보다 2.38% 높은 이미지 분류성능을 보인다.

저자 정보

이름 소속
김진영 지능전자컴퓨터공학과