광주RISE 정보·자원 공유 플랫폼

Research Hub

대학 자원

대학 인프라와 자원을 공유해 공동 연구와 기술 활용을 지원합니다.

대학 자원
- 대학 자원
- 소개
- 채용정보
- 기업정보
- 대학 자원
- 공유마루
- 정보마당
논문 리스트
- 논문 리스트
- 공동활용 연구장비
- 연구 인재풀
- R&D 참여현황
- 논문 리스트
- 서적 리스트
- 특허 리스트

논문 리스트

2024

슈퍼토큰 클러스터링 기반 ViT 합성곱 임베딩 모듈 경량화

한국디지털콘텐츠학회

김진영 외 2명

논문정보

Publisher: 디지털콘텐츠학회논문지

Issue Date: 2024-02-29

Keywords: -

Citation: -

Source: -

Journal Title: -

Volume: 25

Number: 2

Start Page: 485

End Page: 494

DOI: http://dx.doi.org/10.9728/dcs.2024.25.2.485

ISSN: 15982009

Abstract

Transformer의 자연어처리 분야의 성공 이후 컴퓨터 비전 분야에서 ViT(Vision Transformer)가 등장하였다. ViT는 Transformer와는 다르게 이미지의 특성을 고려하지 않게 이미지를 임베딩 한다. 즉 ViT의 패치 임베딩 모듈은 픽셀간의 지역적인 관계성을 고려하지 않는다. 이를 개선하기 위해 EarlyConv에서 합성곱 임베딩이 제안되었다. 하지만 패치 임베딩에 비해 3배의 학습 파라미터를 사용하여 ViT의 과도한 학습 파라미터를 사용하는 문제를 악화시켰다. 이에 본 논문은 합성곱 임베딩 경량화를 목적으로 ViT의 연산량 감소 기법 중 하나인 슈퍼토큰 클러스터링을 결합한 슈퍼토큰 합성곱 임베딩 모듈을 제안한다. 이는 합성곱 임베딩 레이어를 사용하고 슈퍼토큰 클러스터링 알고리즘을 통해 연관성 있는 토큰을 그룹화하여 합성곱 임베딩에 비해 10배 적은 학습 파라미터로 성능을 향상한다. ImageNet100 이미지 분류 실험을 통해 제안한 방법을 검증한바, 기존 ViT 패치 임베딩 모듈보다 5.08%, 합성곱 임베딩 모듈보다 2.38% 높은 이미지 분류성능을 보인다.

전남대학교
KCI
디지털콘텐츠학회논문지

저자 정보

이름	소속
김진영	지능전자컴퓨터공학과

목록보기