이번 포스팅에서는 NLP task에서 가장 많이 활용되고 있는 2가지 서브워드 토큰화 방법을 다뤄보도록 하겠습니다. 기존의 토큰화 방식(단어 단위)의 문제점은 한글과 영어처럼 형태소가 풍부하고 변형이 많은 언어에서 단어 수준의 토큰화는 너무 많은 어휘를 생성할 수 있습니다. 서브워드 방식은 단어를 더 작은 조각으로 나누어 데이터로부터 학습할 수 있게 하며, 이를 통해 모델의 일반화 성능을 높입니다. 서브워드의 두가지 큰 특징은 다음과 같습니다. 1. OOV(Out of Vocabulary) 문제 해결CV의 이미지 데이터는 크기의 차이는 있어도 개별 픽셀 값은 0~255로 같은 값을 가지고 있습니다. NLP에서는 자주 사용하는 단어만을 단어사전에 등록해두게 되는데, 이 경우 신조어나 단어 사전에 등록되지..