Explainable model로 유명한 LIME의 저자였던, Jian Pei가 후속 연구의 개념으로 제안한 논문을 요약하였습니다.
해당 자료에서는,
우선 기존 모델을 해석하기 위한 3가지 접근 방법 - Hidden neuron analysis / Model mimicking / Local interpretation methods - 각각에 대한 간단한 설명 및 예제, 그리고 단점을 설명합니다.
이 중 본 논문에 제안하는 OpenBox method와, 직접적인 비교대상인 LIME의 경우 조금 더 디테일하게 설명한 뒤,
논문의 제목인 Exact and Consistent interpretation이 무엇인지, Piecewise Linear Neural Networks(PLNN)이 무엇인지 정의내립니다.
이 후, Exact and Consistent interpretation를 달성하기 위한 증명을 진행하는데,
수식적으로 쉽다면 쉽지만 노테이션이 많은 탓에 조금 어려울 수 있어, 최대한 이미지를 사용해 직관적인 이해를 높일 수 있도록 하였습니다.
결론은, LIME을 기반으로 하는 기존 메서드들은,
복잡한 Black-box model을 해석하기 위한 Simple(=Interpretable, Linear) model을 학습시킴으로써 얻어냈다면,
이번 OpenBox의 경우,
새로운 Simple model을 학습시키는 것이 아니라,
Black-box model(=DNN, 해당 논문에서는) 그 자체에서 추출을 한다. 또는 Black-box model 그 자체를 Interpretable model로써 활용한다. - 라는 점입니다.
쨋든 이렇게 얻어진(=OpenBox method를 통해 얻어진) Interpretable model이,
유용한 해석력을 제공하는지를 다양한 실험을 통해 설명합니다.
...
PPT와는 별개로,
조금 더 섬세한 오버뷰를 해보자면,
복잡한 DNN을 생각해봅시다.
그리고 DNN은 모양이 복잡할 뿐, 저희가 초-중-고에 배우던 함수 f:X->Y와 다를 바가 없지요.
어떤 input x를 DNN에 통과시켜서 y를 얻는다는 말은,
어떤 input x가 DNN의 다양한 히든 뉴런을 통과하여 y라는 산출 값을 얻는다는 말입니다.
그리고 인풋 뉴런의 개수는 곳 인풋의 차원을 의미하듯, 히든 뉴런의 개수는 히든의 차원을 의미합니다.
그런데 이런 히든은 사실상 모델의 함수를 구성하는 요소라는 걸 생각하면,
어떤 input x가 DNN의 다양한 히든 뉴런이 생성하는 공간을 통과하여 y라는 산출 값이 얻어집니다. - 라고 말할 수 있습니다.
이걸 인지한 채로,
매니폴드 가설을 떠올려볼게요.
저희는 이미지든 뭐든, 인풋이 생성하는 공간이 몇백 몇천이라는 엄청난 차원을 가짐에도,
실질적으로는 그런 엄청난 공간이 꽉채워져있는 것이 아니라,
자주 사용되는 부분만 사용되고 있을 것이다 - 라는 점을 직관적으로 이해할 수 있습니다. (그것이 사실인지는 모르더라도)
이건 인풋 공간에서만 통용되는게 아니라, 히든 공간에서도 그럴 것 같아요.
모든 히든 뉴런이, 지들이 생성하는 공간을 헤집고 다니면서 난리를 치는게 아니라,
무관심한 뉴런은 사실 뭔 일이 일어나도 별로 신경안쓰고,
민주당 뉴런은 어떤 인풋에는 민감하지만 어떤 인풋에는 무관심하고,
반대되는 공화당 뉴런도 있고,
뭐 그럴 거 같아요.
이 중 무관심한 뉴런같은 친구들을 다르게 말하면 모델의 판별 능력에 별 도움이 안되니,
날려버리는게 좋을테니 프루닝 같은 방법론이 등장했겠지요.
쨋든 더 상세하게 들어가서,
민주당 뉴런 같은 친구들을 생각해보면, 얘들은 별로 시야를 크게 두지 않을 거에요.
그냥 당장 자기들이 중요시하는 무언가에 적합한가 아닌가- 만 판단할 것 같은데.
이건 굉장히 간단한 분류입니다.
그러니까 이건 간단한(선형) 모델로 표현할 수 있게 되겠죠.
그리고 이런 간단한 모델을, 새로 만들게 아니라, DNN안의 파라미터들로 추출해낼 수 있을 것도 같습니다.
라고 정리해볼 수 있을 것 같아요.
...
이상입니다.