본문 바로가기

머신러닝/[단단한 머신러닝]

추천사 / 머리말

 지금으로부터 약 1년전 처음 머신러닝을 접했을 때에는, 각각의 모델들이 정확히 어떻게 정답을 내놓는가-에 대한 구체적 고민없이 그저 sklearn에 있는 코드 몇 줄을 따라적어봤던 것이 전부인지라, 막연히 '사람들이 머신러닝 머신러닝하드만 신기하네'라고 생각했었습니다. 모델 내부가 어떤 모델링을 따라가는지 조금씩 알게되면서 들었던 생각은, '이게 기존에 하던 수학적/통계학적 모델링이랑 다른게 뭔가?'였죠. 지금도 여전히 머신러닝과 기존의 통계학이 뭐가 다르냐-한다면, 솔직히 잘 모르겠습니다. 그럼 아예 같은건가-라고 생각을 해봐도. 여전히 모르겠습니다.

 제 이러한 생각에서, 이 책에서 서술되는 아래의 내용이 인상깊네요. (주: 저자의 의견이 아닌 책에 등장하는 다양한 권위자들의 의견이 종합되어 있습니다.)

인공지능 발전 초기 단계에서 머신러닝의 기술은 대부분 기호주의 학습이었습니다. 그러나 1990년대부터 통계 머신러닝이 다크호스처럼 등장해 기호주의 학습의 자리를 대체했습니다.

 사실 기호주의 학습이 뭔지도 잘 몰라서 함 찾아봤더니, 좋은 글, 좋은 글(2)이 있네요. 정리하면, 머신러닝을 구현하는 관점은 크게 2가지로 분류되는데, 첫째가 기호주의(역연역법과 의사결정 트리를 이용한 귀납법), 둘째가 연결주의(퍼셉트론)입니다. 연도상으로 생각해보면, 연결주의가 곧 통계 머신러닝을 나타내는 것이라 생각이 되네요. 결국 기존에 사림이 기계에게 무엇인가를 조금 더 직접적으로 설명하고자 했던 시도(기호주의)는 점차 쇠퇴하고, 수많은 데이터를 활용한 반복학습으로 느리지만 서서히 가르치고자 하는 시도(연결주의)가 현 시대를 이끌고 있다... 그리고 추후에는 현재의 연결주의보다 더욱 추상화된 학습 방법이 나올 것이다... 정도로 생각이 됩니다. 당연하다면 당연한 말이네요.

 그리고 이러한 말의 근거 중 하나는 현재의 통계 머신러닝 알고리즘이 모두 독립항등분포(Independent and identically distributed, iid)에 기반하지만, 자연계에는 iid를 따르지 않는 경우가 더 많다-라는 점이네요. 이에대해, 어떤 교수는 iid조건이 없는 머신러닝이 어려울 수는 있으나, 해결불능의 문제는 아니다. 이미 많은 연구가 진행되고 있고, 특히 전이학습에 기대를 걸만하다.-라고 말하네요.

 또 딥러닝이 전통적인 통계 모델들을 대체할 수 있느냐는 토의도 흥미롭습니다. 답은 아직은 안된다-라는 것 같네요. 딥러닝이 최근 엄청난 임팩트를 준 것은 사실이나, 이는 연구 결과의 엄청난 발전이라기보다는, 복잡도 문제로 쓸수없었던 알고리즘을, 기술의 발전으로 사용할 수 있게된 덕이다. 아직까지 딥러닝의 적용범위는 전통적 통계 모델들에 비해 굉장히 제한적이다.

 이외에도 머신러닝 속에 사용되는 수학과 통계의 차이. 수학자의 필요성 등등에 대해 언급을 하는데, 하나같이 흥미로운 내용이 많은 것 같습니다. 이상입니다.