본문 바로가기

그 외 지식

(6)
최대 우도 추정(Maximum Likelihood Estimation, MLE) 최대 우도 추정(MLE)는 한글인데 한글같지 않은, 개인적으로 참 더럽다고 생각되는 단어입니다. 자연어 처리를 공부하게 되면서, 다시 한 번 이 단어를 마주하게 되었는데, 최대한 깔끔히 정리해둬보겠습니다. 우도(Likelihood)와 추정(Estimation) 최대 우도 추정을 이해하기 위해서 당연히 우도와 추정에 대해서 생각해봐야겠죠. 이를 위해서, 확률밀도함수에 대해 먼저 이해할 필요가 있습니다. 통계학의 관점에서, 어떤 확률변수 X에 대한 확률 모형은 확률밀도함수 f에 의해 정의되는데, 이는 확률 밀도 함수 f(x;θ)와 같이 보통 표기합니다. x는 확률변수의 실수값이며 θ는 확률 밀도 함수의 Parameter 집합을 뜻합니다. 예를 들어, 확률변수 X가 정규 분포를 따른다면, θ=(μ,σ^2) 이..
객체(Object) 객체란? 1. 저장공간에 할당되어 값을 가지거나, 식별자에 의해 참조되는 공간. 즉 메모리가 할당되기 전 까지는 존재하지 않는다. 2. C, Fotran과 같은 절차지향프로그램에서는, 자료 또는 명령을 지칭 3. Java, Python과 같은 객체지향프로그램에서는, 어떤 클래스의 인스턴스 자료와 그 자료를 다루는 명령의 조합
데이터 타입(Data Type) 데이터 분석을 하기 위한 글들을 읽어보면 Qualitative data, Quantitative data, Nomial data, Discrete data... 등 굉장히 다양한 데이터 타입이 줄줄이 등장하게 됩니다. 연속(Continous)과 이산(Discrete)까지는 친숙했지만 다른 데이터 타입들은... 해서 오늘은 데이터 타입에 대해 간략히 정리하겠습니다. Qualitative(질적), Categorical(범주형) Quantitative(양적), Numerical(수치형) Nomial(명목형) Ordinal(순서형) Discrete(불연속적) Continuous(연속적) 순서가 없는 범주 순서가 있는 범주 연속되지 않는 수치 연속적인 수치 사실 데이터 특성을 구분하는 기준에 따라 다른 분류법이 ..
박스 플롯(Box Plot), 바이올릿 플롯(Violin Plot) 데이터 분석을 하다보면 목적성에 맞게 여러가지 시각화를 시도하게 됩니다. 어릴적 배웠던 막대 그래프나 꼭지점 그래프 정도에서 발전된 그래프는 충분히 이해하기 쉬웠는데, 이를 벗어나면 간단한 것임에도 처음보면 굉장히 답답한 그래프들이 많습니다. 저에게는 박스, 바이올린 플롯이 그랬습니다. 그래서 이번에는 이런 특이한 그래프에 대해 간단히 기록하고자 합니다. 내용을 읽은 뒤 코드를 참고하시면 좋을 것 같습니다. 아무것도 모르고 봤을 때도, 좌측이 박스 플롯, 우측이 바이올린 플롯일 것 같습니다. 실제로도 그렇구요. 사실 이 그림 하나만으로 이 글의 모든 내용을 설명할 수 있을 것 같습니다. 1. 박스 플롯(Box Plot) 일변량, 연속형 데이터의 분포(Distribution)를 설명하기 위해 사용되는 이 ..
P-NP 문제 캐글의 유명한 예제 중 하나인 타이타닉 문제에 대한 커널을 정리하다 NP라는 용어를 다시 접하게 되어, 다시 한 번 내용을 정리하기 위해 찾아보던 도중 이곳의 글을 읽게 되었습니다. 내용의 설명이 제가 봤던 어느 것보다 명쾌하면서 깔끔했기에 아래의 글들은 그저 다시 한 번 내 손으로 타이핑할 목적으로 정리하였습니다. 때문에 해당 링크로 가시면 가장 좋은 P-NP문제에 대한 답을 얻을 수 있을 것 같습니다. 현실적 알고리즘을 사용함에 있어서 드는 그 비용이 현실적으로 가능하다면, 그 알고리즘을 현실적인 알고리즘이라고 칭합니다. 알고리즘의 실행비용, 그러니까 복잡도가 입력 크기($ n $)에 대해 상수($ k $)승을 가진다면($ n^k $) 현실적이라고 합니다. 예를 들어, $ O(n^2) $ 혹은 $ O..
휴리스틱(Heuristic) 머신러닝을 공부하다보면 이따금 휴리스틱(Heuristic)이라는 단어를 접하곤 합니다. 때문에 이번에는 휴리스틱이 무엇인지, 어떻게 쓰이고 있는지에 대해 정리해보고자 합니다. 휴리스틱? 찾아내다(find out) 그리고 발견하다(discover) 라는 의미를 가진 휴리스틱이라는 단어는 다른말로 발견법이라고도 불립니다. 휴리스틱이란 어떤 문제가 있을 경우, 해당 문제를 해결할 수 있는 방법이 증명되지 않았을 때, 시행착오를 거쳐가며 경험 또는 직관을 활용해 충분히 효율적인 해답을 유추해나가는 기법을 의미합니다. (말인 즉슨 누군가 어떤 문제에 대한 해결책을 제시하였지만, 올바른 것인지에 대한 수학적 증명이 없다면 그것은 휴리스틱한 것이고, 증명이 된다면 그것은 휴리스틱하지 않은 것입니다.) 이는 사실 인간..