본문 바로가기

머신러닝

(118)
Distilling Knowledge from Graph Convolutional Networks [CVPR '20] CVPR 20년도에 발표된 'Distilling Knowledge from Graph Convolutional Networks' 에 대한 발표자료입니다.
How powerful are Graph Neural Networks [ICLR '19] ICLR 19년도에 제출된 'How powerful are Graph Neural Networks' 논문 의 정리 자료입니다
Shallow-Deep Networks: Understanding and Mitigating Network Overthinking [ICMR '19] 얕으면서, 깊은 네트워크. 굉장히 재미있었던 논문입니다.
Co-occurence, PPMI, Similarity matrix 논문을 읽다보면, Co-occurence, PPMI, Similiarty matrix 라는 단어가 종종 나오는데, 애매하게 알고 있던 감이 있어 다시 한 번 정리해 둘게요. 그리고 해당 글 작성을 위해 [한경훈님의 유튜브 강의]를 참고하였다는 것을 밝힙니다. 3개 행렬에 대해 설명하기 앞서 예제 하나를 고정하고 가겠습니다. "You say goodbye and i say hello." 1. Co-occurence matrix "You shall know a word by the company it keeps" - John R.Firth "단어는, 사용된 맥락에서 그 의미를 가진다." 라는 말이네요. 사용된 맥락을 조금 더 쉽게 풀면, 어떤 단어의 주변에는 어떤 단어들이 존재했는가- 라는 뜻이 됩니다. 앞..
BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding [NAACL '19] 논문스터디 중 진행한 BERT에 대한 요약 및 정리 PDF 를 첨부합니다. QNA. BERT에서 왜 CLS Token이 Sentence representation을 담게되는가? 1. 일단, 어떤 Sequence data를 Single vector로 변환하는 방법에는 당연히 여러 방법이 있다. Max/Mean pooling, Attention, ETC, ... 하지만 BERT 저자들은 가장 간단한 방법을 채택했는데, 그게 바로 First token(=CLS)에 대한 Vector를 가져오는 방법이다. 2. 어떻게 그걸로 퉁칠 수 있는가? -> 일단, 각 Token에 대한 Embedding vector가 추출되는 과정은 아래 그림과 같은데, Transformer를 썼으니까 사실 당연하게도 모든 Embeddin..
매크로 평균(Macro-average) vs 마이크로 평균(Micro-average) Macro, Micro-average는 이름처럼 평균을 구하는 방법들입니다. 저희는 Macro-f1, Micro-precision, Micro-accuracy 등으로 활용하게 될 예정입니다. 아래에서는 Precision을 기준으로 설명하겠습니다. 간단하게, 어떤 모델이 Class A, Class B, Class C, Class D를 구분하는 짓을 하고 있고, 각 클래스별로 2, 100, 2, 2개의 데이터를 가지고 있다고 생각해봅시다. 그렇게 학습한 모델이 아래와 같은 결과를 뿜어냈습니다. Class A: 1 TP & 1 FP Class B: 10 TP & 90 FP Class C: 1 TP & 1 FP Class D: 1 TP & 1 FP 이제 이런 클래스별 결과를 통합시켜봅시다. 간단히 평균을 사용해..
Precision at k(Pr@k), Average Precision(AP), Mean Average Precision(MAP) 일전에 분류 성능평가 - 에 대해 언급한 적이 있는데, 여기에 추가하여, 실제 논문에서 자주 볼 수 있는 Precision at k(Pr@k), Average Precision(AP), Mean Average Precision(MAP) 라는 개념에 대해 정리해둘게요. 정밀도(Precision)와 재현율(Recall)에 대한 개념을 알고계시다는 가정하에, 다시 한번 말로만 지껄여보면, 정밀도라는 건, 모델이 참이라고 예측(검출)했는데 찐으로 참인 비율. 재현율이라는 건, 실제로 참인 것들 중에 모델도 참이라고 예측한 비율입니다. 그리고 이러한 정밀도와 재현율은 Trade-off 관계에 놓여 있어, 하나가 높아지면 하나는 낮아질 수 밖에 없는 구조였습니다. 쨋든 정밀도든 재현율이든 일단 계산을 하긴 할텐데,..
Non-local self-similarity 'Deep graph-convolutional image denoising' 이라는 논문을 읽는 중 제목과 같은 Non-local self-similarity 라는 단어를 접했는데 이게 무슨 쌉소리인지 잘 이해가 가지 않았습니다. 더 정확한 문장은 Non-local self-similarity is well-known to be an effective prior for the image denoising problem 지역적이지 않은 자기 유사성은,,. 이미지 디노이징 문제를 위한,,. 효과적인 prior로 잘 알려져있다...??? Image denosing problem은 Image classification, Object detection, Pose estimation 등에서 이미지가 좀 깨끗하면 그..