본문 바로가기

분류 전체보기

(125)
데이터 사이언스에 관하여, Practicing the Art of Data Science 오늘은, 데이터 사이언스, 데이터 과학 그 자체에 대한 설명을 간략히 기록해두려합니다. 정확히는, 이 계열의 권위자 중 한 분인 Jian Pei 교수님의 "Practicing the Art of Data Sceience" 라는... 강연의 내용 중 일부를 번역하려합니다. ※ 당연히 제가 의미를 곡해하는 상황이 종종 나올 수 있다고 생각하기에, 원문과 한글을 함께 적어둘 것이며, 공식 스크립트 데이터가 없어 오타가 등장할 수 있습니다. 제 개인적인 경험으로, 항상 중요하게 생각해왔던 부분들이, 권위자의 입에서 정돈되어 표현된 덕에, 강연을 재밌게 볼 수 있었는데 이러한 느낌이 잘 전달되었으면 좋겠네요. ... hello everyone welcome to my talk practicing the art o..
Distilling Knowledge from Graph Convolutional Networks [CVPR '20] CVPR 20년도에 발표된 'Distilling Knowledge from Graph Convolutional Networks' 에 대한 발표자료입니다.
How powerful are Graph Neural Networks [ICLR '19] ICLR 19년도에 제출된 'How powerful are Graph Neural Networks' 논문 의 정리 자료입니다
Shallow-Deep Networks: Understanding and Mitigating Network Overthinking [ICMR '19] 얕으면서, 깊은 네트워크. 굉장히 재미있었던 논문입니다.
Co-occurence, PPMI, Similarity matrix 논문을 읽다보면, Co-occurence, PPMI, Similiarty matrix 라는 단어가 종종 나오는데, 애매하게 알고 있던 감이 있어 다시 한 번 정리해 둘게요. 그리고 해당 글 작성을 위해 [한경훈님의 유튜브 강의]를 참고하였다는 것을 밝힙니다. 3개 행렬에 대해 설명하기 앞서 예제 하나를 고정하고 가겠습니다. "You say goodbye and i say hello." 1. Co-occurence matrix "You shall know a word by the company it keeps" - John R.Firth "단어는, 사용된 맥락에서 그 의미를 가진다." 라는 말이네요. 사용된 맥락을 조금 더 쉽게 풀면, 어떤 단어의 주변에는 어떤 단어들이 존재했는가- 라는 뜻이 됩니다. 앞..
BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding [NAACL '19] 논문스터디 중 진행한 BERT에 대한 요약 및 정리 PDF 를 첨부합니다. QNA. BERT에서 왜 CLS Token이 Sentence representation을 담게되는가? 1. 일단, 어떤 Sequence data를 Single vector로 변환하는 방법에는 당연히 여러 방법이 있다. Max/Mean pooling, Attention, ETC, ... 하지만 BERT 저자들은 가장 간단한 방법을 채택했는데, 그게 바로 First token(=CLS)에 대한 Vector를 가져오는 방법이다. 2. 어떻게 그걸로 퉁칠 수 있는가? -> 일단, 각 Token에 대한 Embedding vector가 추출되는 과정은 아래 그림과 같은데, Transformer를 썼으니까 사실 당연하게도 모든 Embeddin..
매크로 평균(Macro-average) vs 마이크로 평균(Micro-average) Macro, Micro-average는 이름처럼 평균을 구하는 방법들입니다. 저희는 Macro-f1, Micro-precision, Micro-accuracy 등으로 활용하게 될 예정입니다. 아래에서는 Precision을 기준으로 설명하겠습니다. 간단하게, 어떤 모델이 Class A, Class B, Class C, Class D를 구분하는 짓을 하고 있고, 각 클래스별로 2, 100, 2, 2개의 데이터를 가지고 있다고 생각해봅시다. 그렇게 학습한 모델이 아래와 같은 결과를 뿜어냈습니다. Class A: 1 TP & 1 FP Class B: 10 TP & 90 FP Class C: 1 TP & 1 FP Class D: 1 TP & 1 FP 이제 이런 클래스별 결과를 통합시켜봅시다. 간단히 평균을 사용해..
Precision at k(Pr@k), Average Precision(AP), Mean Average Precision(MAP) 일전에 분류 성능평가 - 에 대해 언급한 적이 있는데, 여기에 추가하여, 실제 논문에서 자주 볼 수 있는 Precision at k(Pr@k), Average Precision(AP), Mean Average Precision(MAP) 라는 개념에 대해 정리해둘게요. 정밀도(Precision)와 재현율(Recall)에 대한 개념을 알고계시다는 가정하에, 다시 한번 말로만 지껄여보면, 정밀도라는 건, 모델이 참이라고 예측(검출)했는데 찐으로 참인 비율. 재현율이라는 건, 실제로 참인 것들 중에 모델도 참이라고 예측한 비율입니다. 그리고 이러한 정밀도와 재현율은 Trade-off 관계에 놓여 있어, 하나가 높아지면 하나는 낮아질 수 밖에 없는 구조였습니다. 쨋든 정밀도든 재현율이든 일단 계산을 하긴 할텐데,..