본문 바로가기

머신러닝/[기타]

데이터 사이언스에 관하여, Practicing the Art of Data Science

오늘은, 데이터 사이언스, 데이터 과학 그 자체에 대한 설명을 간략히 기록해두려합니다.

정확히는, 이 계열의 권위자 중 한 분인 Jian Pei 교수님의 "Practicing the Art of Data Sceience" 라는... 강연의 내용 중 일부를 번역하려합니다.

※ 당연히 제가 의미를 곡해하는 상황이 종종 나올 수 있다고 생각하기에, 원문과 한글을 함께 적어둘 것이며, 공식 스크립트 데이터가 없어 오타가 등장할 수 있습니다.

제 개인적인 경험으로, 항상 중요하게 생각해왔던 부분들이, 권위자의 입에서 정돈되어 표현된 덕에, 강연을 재밌게 볼 수 있었는데

이러한 느낌이 잘 전달되었으면 좋겠네요.

...

hello everyone welcome to my talk practicing the art of data science.

이번 제 강연을 들어주시는 모든 분들께 인사드립니다.

this is Jian Pei from simon fraser university canada.

저는 Simon fraser 대학의 Jian Pei입니다.

in this talk i’d like to share with you some of the lessons and experience we learned from the data science research and practice.

이번 강연에서는, 제가 데이터 사이언스에 관련된 연구 및 실전을 겪으며 얻을 수 있었던, 다양한 경험에 대해 이야기해보려합니다.

we all know data science is an interdisciplinary study combining science engineering and art.

저희는 데이터 사이언스가 과학 공학과 예술을 결합한, 여러 학문 분야를 짬뽕시킨 연구 분야라는 것을 알고 있습니다.

there is a joke.

그런데 사실, 이건 음.. 말장난 같은겁니다.

whatever a principle we have to call it a science it may not be really a science yet.

저희가 지금 (데이터 사이언스에서) 사이언스- 라고 부르는 것의 근본이 무엇이든, 이건 사실, 음 아직은, 과학은 아닐 수 있다는 말입니다.

so in data science, we have to get information and skills from multiple disciplines for example from statistics from machine learning from data analytics.

따라서, 데이터 사이언스에서, 저희는 통계, 머신러닝, 데이터 분석 등과 같은 다양한 분야로부터 정보와 스킬을 얻어야합니다.

the core of data science is to connect those principles and apply the ideas and tools to solve practical problems involving a large amount of dynamic data.

여기서 데이터 사이언스의 핵심은, 이러한 내용들을 서로 연결하고, 일종의 빅데이터와 관련된 다양한 실전 문제들을 해결하기위해 다양한 아이디어와 도구를 사용할 줄 알아야한다는 것입니다.

in practice, data science is focusing on various domains.

실전에서, 데이터 사이언스는 굉장히 다양한 분야에 초점을 맞춰야하지요.

therefore data science is really a pipeline starting from obtaining data scrub data, meaning cleaning data to a format that machine can understand and process and then reprocess data pre-processed data and using pattern mining techniques to find significant patterns from data and also we need to construct different models and make a prediction and forecast then we need to put our models and findings into practice and find a good understanding of the knowledge we can extract from the data and get the domain experts understand and adopt our findings.

따라서, 데이터 과학은 스크럽 데이터를 얻는 것을 시작으로하는 일종의 파이프라인입니다. 어떤 데이터를 기계가 이해하고 처리할 수 있게끔 잘 다듬어내고, 패턴 마이닝 기법을 이용해 데이터의 중요한 패턴을 잡아내어야하며, 또한 예측을 하기 위한 다양한 모델을 구성할 수 있어야합니다. 그리고 우리는 이런 모델 그 자체와, 모델로 부터 얻어진 인사이트를 실전에 녹여내야합니다. 또 데이터로부터 얻어진 지식을 잘 이해하여, 도메인 전문가가 우리의 결과물을 잘 이해할 수 있게, 그리고 채택할 수 있게 설명할 수 있어야합니다. (가령 의사들은, 분명 그 분야의 전문가이지만, 데이터를 통해 어떤 결과를 얻는 행위에는 취약점이 있습니다. 저희 데이터 과학자들은, 의료 분야를 깊이 꿰고 있지는 못하지만, 데이터를 분석하는 행위는 더 잘할 수 있겠죠. 그렇게 얻어진 결과물을 의사에게 잘 전달하고, 설명하는 것도 분명한 저희의 몫입니다.)

therefore data science although we want it to stay as a principle but indeed in practice it is always associated with some domain and also data science is a domain-oriented end-to-end solutions to interpret different kinds of data and transform data into interpretable knowledge data science.

때문에, 비록 우리는 데이터 과학이 어떤 원칙 그 자체로 남기를 원하지만(그러니까, 어느정도 내용이 정립되어있는... 또는 수학과 같이 일반화되어서 남아져 있기를 바란다는 말 같습니다. 가령 수학은 1,2,3 과 같은 구체적인 수를 가지고 내용을 진행하는 게 아니라, 임의의 x로 진행을 하지요.), 실전에서는 항상 어떤 도메인에 연관되어 있습니다. 즉, 데이터 과학은 다양한 종류의 데이터를 해석하고, 이들을 해석 가능한 지식으로 변환하는, 도메인 지향적인 end-to-end solution이라고 할 수 있습니다.

it is not a brand new discipline that will invent everywhere else, instead data science should be a strong connector and transformer to connect many journal, scientific principles and tubes and make them available to the very first practice in data in practice.

이러한 이유로, 데이터 과학은 전에 없던 새로운 학문이 아닙니다. 대신 다양한 학문을 연결하여, 실전의 문제를 데이터를 통해 풀어나가는 일종의 커넥터이자 변환기같은 학문이죠.

i was asked the question what’s the difference between data science and machine learning?

저는 항상 "데이터 과학과 머신 러닝의 차이는 무엇인가?" - 하는 의문을 지니고 있었습니다.

this question was asked again again and i think one good answer was indeed from an article in the harvard business review.

그리고 이에 대한 해답을, 하버드 비즈니스 리뷰의 한 기사로부터 얻을 수 있었습니다.

in the article what data scientists really do according to 35 data scientists the authors said very well the key skills for data scientists are not the abilities to build and use deep learning infrastructures.

기사에서는 말하기를, 데이터 과학자의 핵심 역량은 딥 러닝 인프라를 구축하고 사용하는 능력이 아닙니다.

instead they are the abilities to learn on the fly and to communicate well in order to answer business questions explaining complex results to non-technical stakeholders as you can see

대신, 그들은 즉석에서 무언가를 배울 수 있어야하며, 좋은 의사소통 능력을 지녀야합니다. 자신들이 알아낸 복잡한 결과를 비기술직 이해당사자들에게 잘 설명할 수 있어야하니까요.

here the core role of data scientists are indeed connecting technology and users and to integrate the technical solutions to domain experts.

여기서, 데이터 과학자의 핵심 역활은, 결국 기술과 사용자를 연결하고, 기술적 솔루션을 도메인 전문가와 통합하는 것입니다.

so, communication connection are the key features of data science.

때문에 커뮤니케이션 능력의 중요성은 데이터 과학에 있어서 몇 번이나 강조해도 부족하지 않습니다.

let me use one example to show you how the connection how the understandable domain knowledge are important.

이해 가능한 도메인 지식, 연결이 얼마나 중요한지를 보여주는 한 가지 예시를 들어보죠.

for domain experts over 15 years ago we did a paper we tried to mine frequent orders from sequences the idea is that we observe.

약 15년 전, 저희는 도메인 전문가들을 위해 한 논문을 작성했습니다. 어떤 시퀀스 데이터로부터 빈번한 주문을 마이닝하기 위한 내용이었습니다.

we may find many sequential patterns for example. uh.. from the bank service log we can find different orders where customers may open their accounts including checking account, monday market account, retirement savings plan mortgage account, broker account and registered education savings plan and so on.

then we said well instead of getting many accounts in sequences which is the sequential patterns . thus one thing we can do is that we can summarize multiple sequential patterns here as partial order which is an isaac. uh.. acid creek um back.

then you can see here indeed those partial orders will have quite good summarization capability over sequential patterns.

we published a paper in the icdm 2005 conference and got some citations but not many and we also wrote a full version of the paper published in the tkde journal and also we got the better citations over 100.

저희는 해당 내용을 ICDM '05에 출간했지만, 많은 인용을 얻지는 못했고, 풀버전을 TKDE에 출간한 후에 100 이상의 인용을 얻었습니다.

so this is a typical way of doing data science research from the algorithm point of view.

we also show in our paper that there are some application scenarios. for example, we show the patterns found from bioinformatics data sets

또한 저희는, 해당 논문에 같은 시나리오를 적용할 수 있는 예제, 그러니까 생물정보학에서도 패턴을 찾을 수 있음을 보였습니다.

however our algorithm did not go into real application until we worked with software engineers, domain experts using the frequent partial order mining algorithm.

그러나, 저희의 알고리즘은 소프트웨어 엔지니어, 도메인 전문가와 함께할 때까지, 실제 어플리케이션으로 적용되지 못했습니다.

we developed the end-to-end tool a source called analysis tool the tool can help us to analyze the patterns that programmers will use in constructing their codes we publish several papers on that for example MAPO we published in 2009 essentially.

결국 저희는 패턴 분석을 돕는 end-to-end tool을 개발했고, MAPO를 비롯한 다양한 논문을 2009년부터 게시하기 시작했습니다.

we use the frequent partial order to mine and recommend the api usage patterns as you can see those papers published in the end software engineering domain receive a lot of citations the least one is 269 citations.

그렇게 소프트웨어 엔지니어링 도메인에 게제된 이런 논문들은 최소 269회의 인용을 받기도 했습니다.

the number of citations is not everything is not the final goal.

물론 인용수가 전부는 아니며, 최종 목표가 되어서도 안됩니다.

but it is a good indicator on how popular our methods are adopted.

다만, 이건 저희의 방법이 얼마나 대중적인가를 나타내는 좋은 지표입니다.

you can see here is that because we combined our method with domain practice our algorithm has been used properly popularly by domain users. so from here we can learn several things.

그대들이 여기서 볼 수 있는 것은, 우리의 알고리즘을 도메인에 잘 결합했기 때문에 성공했다는 점입니다.

first, data science should provide domain-oriented end-to-end solution instead of only developing algorithms or models. the end-to-end solution is really critical for data science algorithms. without end-to-end solutions, it is very hard for data science algorithms to find good applications

첫째로, 데이터 과학은 단순히 알고리즘이나 방법론을 개발하는 것이 아니라, 도메인 지향적인 end-to-end solution을 제공해야한다는 점입니다. 데이터 과학에서 end-to-end solution은 굉장히 중요하며, 이것없이 좋은 어플리케이션을 구성하는 것은 어렵습니다.

second, machine learning can produce good models. data science can help people to obtain domain knowledge and here domain knowledge is the final goal in many applications. therefore data science is a broader umbrella including machine learning product models we can use machine learning models in data science and combined with complication, visualization, interpretation to help the main users to get the knowledge. this is very very important.

둘째로, 머신 러닝은 좋은 모델을 구성할 수 있게합니다. 데이터 과학은 사람들이 어떤 도메인 지식을 얻는데 도움을 줄 수 잇으며, 여기서 도메인 지식은 많은 어플리케이션의 최종 목표입니다. 그러므로 데이터 과학은 사용자가 어떤 복잡한 지식을 시각화하고, 해석하는 것에 도움을 주는 거대한 틀입니다.

last, in data science applications indeed interpretability and understandability are the key. only when the domain experts can understand and interpret the knowledge found using the machine learning or statistical models from data, data scientists can achieve their goals.

마지막으로, 데이터 과학에서 해석가능성과 이해가능성은 굉장히 중요한 요소입니다. 도메인 전문가가 머신 러닝 또는 통계적 모델로부터 얻어진 어떤 정보를 이해할 수 있을 때, 데이터 과학자는 자신의 본분을 이뤄낸 것으로 생각할 수 있습니다.

so keep those three lessons in mind they are important factors leading to the success of data science.

이러한 3가지 요소가 데이터 과학의 성공을 이끄는 핵심 요소라는 것을 기억하세요

...

실제 강연은 약 50분 정도 되는데, 그 부분은 제가 여기서 전달하고자 했던 내용과는 조금 떨어져서 생략하였습니다.

누군가가 보기에는 너무 당연한 말을 하는 것 처럼 보일 수 있지만,

이 당연한 것이 너무 중요함을 매번 느끼네요.

이상입니다.