• 검색 결과가 없습니다.

Codeless Data Science Learning Software

N/A
N/A
Protected

Academic year: 2021

Share "Codeless Data Science Learning Software"

Copied!
2
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

한국컴퓨터정보학회 하계학술대회 논문집 제29권 제2호 (2021. 7)

507

요 약

4차산업 혁명시대가 도래하고, 클라우드 컴퓨팅의 발전과 동시에 데이터 처리 효율과 속도가 높아지면서, 지속적으로 다양한 분야의 데이터가 누적되고, 이를 활용한 기술들이 발전하고 있는 가운데 데이터 사이언스 의 역량을 필요로 하는 직군 또한 넓어지고 있다. 본 논문에서는 데이터 사이언스에 막 뛰어든 입문자들이 고난이도의 코딩 없이 데이터 분석 및 전처리, 머신러닝에 익숙해질 수 있도록 디자인적 접근성을 고려한 코 드리스 프로그램을 개발하였다.

키워드: 데이터 사이언스(Data-science), 머신러닝(Machine Learning), 코드리스(Codeless)

Codeless 데이터 사이언스 학습 소프트웨어

최효현*, 송다혜O

*인하공업전문대학 컴퓨터정보공학과,

O인하공업전문대학 컴퓨터정보공학과 e-mail: [email protected]*, [email protected]O

Codeless Data Science Learning Software

Hyo Hyun Choi*, Da Hye SongO

*Dept. of Computer Science & Engineering, Inha Technical College,

ODept. of Computer Science & Engineering, Inha Technical College

I. 서론

데이터 분석, AI등 IT기술의 발전으로 인해 등장한 ‘데이터 과학자’

라는 직업은 미국의 권위있는 구인구직 사이트인 글래스도어에서 발표한 2020 최고직업 Top 10에서 3위를 차지했으며, 유사직군인 데이터엔지니어 또한 6위를 차지했다.[1]

Fig. 1. 2020 최고직업 Top 10(‘글래스도어)

데이터 사이언스 및 머신러닝 관련 프로젝트에 관심을 둔 입문자/현 역 개발자들이 600명가량 참여하고있는 카카토톡의 오픈채팅방에 설문을 실시한 결과, 데이터를 다루는 코드적 개발 테크닉보다 분석 및 피쳐 엔지니어링의 테크닉에 관련된 어려움을 겪고 있다는 의견이 압도적이었다.

또한, 탐색적 데이터 분석(EDA)측면에서 학습과정이 직관적으로 전달될 수 있는 깔끔한 시각화가 중요히 여겨졌다. 코딩에 관한 기술

및 알고리즘을 쉽게 접근하고, 학습할 수 있는 대표적인 예로는 코드리 스가 바탕으로 구성된 스크래치 서비스가 있는데, 이는 4차 산업혁명이 도래한 현 시대에 초중생, 나아가 고등학생과 비전공 성인들을 대상으 로 한 개발자 교육의 밑거름으로 사용되고 있다. 따라서 본 논문에서는 데이터 사이언스 및 머신러닝에 대한 학습을 진행하는 입문자들을 타겟팅하여 쉽게 접근할 수 있는 코드리스 학습프로그램을 구현한다.

II. Analysis

본 논문에서는 PyQt5의 Qtabwidget을 활용해 탭을 Analysis와 Processing and ML 두 개로 나누어 구현하였다. Fig. 2.에서와 같이 Analysis 탭은 데이터의 샘플과 정보, 피쳐간의 상관 관계를 확인하여 분석할 수 있는 피벗차트 세 가지 기능으로 분류된다. 데이터 샘플은 사용자의 선택에 따라 전체 행 혹은 상위 10개의 행이 출력된다.

(2)

한국컴퓨터정보학회 하계학술대회 논문집 제29권 제2호 (2021. 7)

508

Fig. 2. Analysis tab

III. Processing and ML

본 논문에서는 Fig. 3에서 확인할 수 있듯이, Processing and ML 탭에 데이터를 전처리 할 수 있는 처리구역, 처리된 데이터를 즉시 확인할 수 있는 라이브 데이터 구역, 사이킷런의 클래시파이어들 을 활용할 수 있는 머신러닝구역 세 종류로 구분해 구현하였다. 데이터 처리구역에는 4종류의 버튼을 통해 결측치, 이상치를 사용자의 선택에 따라 평균, 중위수, 최빈값으로 대체하는 기능과 피쳐 삭제, 피쳐간의 결합을 통한 차원축소가 가능하다. 드래그앤 드롭방식으로 사용자가 원하는 데이터의 csv파일을 소프트웨어 위에 드롭하면 기존 데이터가 즉시 변경되며, 즉각적으로 응용이 가능하다. 라이브 데이터 구역에서 는 사용자가 처리한 데이터들을 다운로드 버튼으로 현재 소프트웨어가 위치한 경로에 저장한다.

Fig. 3. Processing and ML tab

IV. Software Structure

본 논문에서는 Python을 기반으로 소프트웨어를 구현하였으며, 입문자들의 접근성을 고려해 PyQt5의 Designer툴로 UI를 구성하였 다. Fig. 4.에서 보이는바와 같이 사용되는 머신러닝 라이브러리는 사이킷런이며, 그중 knn, decision tree, random forest, naive bayes, svm 5가지의 클래시파이어를 제공한다. k-fold로 cross validation을 진행해 train data만으로 accracy를 측정한다. UI에 사용되는 컬러는 우드보드 기법을 활용해 하늘. 바다와 같은 청량하고 시원한 느낌의 이미지에서 추출했다. 소프트웨어를 처음 사용했을때 기본적으로 나타나는 데이터는 대표적 입문 데이터로 알려져있는 캐글의 타이타닉 데이터를 사용한다.[2] 드래그 앤 드롭 형식으로 다른 데이터로 교체가 능하다.

Fig. 4. Jump to data structure

V. Conclusions

본 논문에서는 PyQt5 Designer와 sklearn을 활용한 코드리스 형식의 데이터 사이언스 학습 소프트웨어를 구현한 결과를 보였다.

이 프로그램은 다른 ㅏ용자들이 공유할 수 있도록 공개하였다 [3].

데이터의 전처리 및 sklearn 클래시파이어를 활용하고 cross validation과 data 분석을 위한 차트 도출까지 할 수 있도록 구현하여 데이터 사이언스에 입문한 사용자가 쉽게 접근할 수 있도록 UI를 구성하도록 노력하였다. 추후에는 다양한 머신러닝 기법도 codeless 로 테스트해 볼 수 있도록 개발할 계획이다.

REFERENCES

[1] http://www.koreadaily.com/news/read.asp?art_id=7945636 [2] https://www.kaggle.com/c/titanic

[3] 구현 결과 공유, https://github.com/dahye99/titanic

수치

Fig.  3.  Processing  and  ML  tab

참조

관련 문서

오토인코더 를 기반으로 정상 데이터의 특징을 표현하는 프로토타입을 생성할 수 있도록 신경망을 구성하고, 네트워크 데이터의 특성을 반영 하여 쿼리의

을 기반으로 사용자가 주묘 여부를 판단할 수 있도록 의사결정 지원 프로그램을 제시하고 해양사고 사례를 통해 그 실효성을 , 검증하였다 향후 사용자가

웹 기반으로 공간분석 모델을 공유하면 개발된 공간분석 프로세스 재활용이 가능하며 사용자가 공간분석 모 델에 쉽게 접근할 수 있으므로 공간정보의 활발한 분석과

위와 같은 반 정규화된 트랜잭션 데이터의 속성을 마 스터 데이터로 통합하는 단순한 방법을 활용하여 데이터 품질 문제 때문에 개념 데이터 복원에 어려움이

❍ 심층면접 및 설문분석 시사점으로는 시스템 기반 구축 중심에서 벗어나 사용자가 쉽게 접근할 수 있고 조작할 수 있는 데이터 기반 중심의 공 간정보 공유 플랫폼 제공

또한 경보 데이터의 특성을 고려하여, 데이터의 속성을 선택하고 이를 이용해 새로운 시퀀스를 생성하는 데이터 전처리 과정을 수행하였고 생성된 시퀀스 들의 집합 내에서

본 연구에서는 이와 같은 데이터 마이닝 기법의 효율성 증대를 위하여 센서 네트워크로부터의 데이터 스트림의 전처리 과정(Preprocessing)을 수행 하고자 한다. 제안하는

협업의 저작 도구는 여러 사용자가 동시에 접 속할 수 있는 가상머신들의 네트워크 형성과 상호작 용을 위한 소프트웨어 스텍 구현 단계 , 사용자들의 작업 환경 및 실시간 데이터