데이터베이스 연구회지(SIGDB)

Current Result Document : 13 / 13 이전건 이전건

한글제목(Korean Title) Wasserstein 거리를 이용한 연속형 변수 이산화 기법
영문제목(English Title) Discretization Method for Continuous Data using Wasserstein Distance
저자(Author) 하상원    김한준    Sang-won Ha    Han-joon Kim   
원문수록처(Citation) VOL 34 NO. 03 PP. 0159 ~ 0169 (2018. 12)
한글내용
(Korean Abstract)
연속형 변수의 이산화(Discretization)는 양적 변수(Quantitative variable)를 질적 변수(Qualitative variable)로 변형시켜 데이터 마이닝(Data mining) 기법 등 다양한 알고리즘의 성능을 향상시키는데 사용 목적이 있다. 데이터에 적절한 이산화 기법을 사용한다면 분류 알고리즘에 대해 더 좋은 성능뿐 아니라 간결한 결과 해석, 속도 향상까지 기대할 수 있다. 현재까지 다양한 이산화 기법들이 연구되었으며, 현재도 이산화와 관련한 연구에 수요가 많다. 본 논문은 데이터의 클래스에 대한 연속형 변수 값의 분포를 고려하여, Wasserstein 거리를 이용해 분할점을 자동 설정하는 이산화 기법을 제안한다. 본 논문에서 제안하는 기법과 우수함이 입증된 기존의 이산화 기법에 대해 성능비교를 통해 제안 기법의 우수성을 보인다.
영문내용
(English Abstract)
Discretization of continuous variables intended to improve the performance of various algorithms such as data mining by transforming quantitative variables into qualitative variables. If we use appropriate discretization techniques for data, we can expect not only better performance of classification algorithms, but also accurate and concise interpretation of results and speed improvements. Various discretization techniques have been studied up to now, and however there is still demand of research on discretization studies. In this paper, we propose a new discretization technique to set the cut-point using Wasserstein distance with considering the distribution of continuous variable values with classes of data. We show the superiority of the proposed method through the performance comparison between the proposed method and the existing proven methods.
키워드(Keyword) 기계 학습    분포 거리 함수    거리 함수    Wasserstein 거리    이산화.    machine learning    statistical distance    distance function    Wasserstein distance    discretization   
파일첨부 PDF 다운로드