의사결정 나무 / 정보 이득 / 이득율 / 지니 인덱스
의사결정 나무(Decision Tree)의 알고리즘 자체는, 누구라도 생각할 수 있을 법한 그런 아이디어입니다. 다만 그 과정 중 '어떤 잣대를 들이밀어 가지를 분기(또는 분할)시킬 것인가'-는 꽤나 고민이 필요한 문제일 겁니다. 어떤 가지가 뻗어나갈 때, 저희는 당연히 뻗어나가는 가지들이 최대한 같은 클래스에 속하는 샘플을 포함하기를 원하겠죠. 이러한 상황을, 저희는 노드의 순도(Purity)가 높다고 말합니다. 가령, 어떤 데이터가 키, 몸무게, 혈액형 등을 특성으로 갖는다면, 키, 몸무게, 혈액형이 노드가 되고, 저희의 목표는 이러한 노드(특성) 중 어떤 놈들을 우선적으로 선택하여 분기를 시작할 것인지, 생각해야하고, 이러한 우선적 선택의 기준의 해당 노드의 순도입니다. 이런 순도가 높고 낮음을, ..
추론 / 가설 / 공짜 점심은 없다.
머신러닝을 곧이 곧대로 해석하면, 공부하는 기계-라고 생각할 수 있을 것 같습니다. 그런데, 얘들은 대체 뭘, 어떻게 공부한다는 걸까요. 이에 대한 설명에 앞서 저자는 연역(Reduction)과 귀납(Deduction)에 대해 언급합니다. 연역 소크라테스는 인간이다 모든 인간은 죽는다. 따라서, 소크라테스는 죽는다, 귀납 소크라테스는 죽었다. 피타고라스는 죽었다. 노가다김씨는 죽었다. 따라서, 모든 인간은 죽는다. 위의 예시에서 쉽게 알 수 있듯, 연역은 일반에서 특수로 추론하는 것이며, 귀납은 특수에서 일반을 추론하는 것입니다. 그렇다면 저희가 다루는 머신러닝은, 분명한 귀납적 추론으로 학습을 진행하겠네요. 다양한 샘플 데이터에 학습(Fitting)시킴으로써, 세상의 다양한 데이터에 일반화되기를 목적으..