강의실 전체맵
- 본 강좌 내용은 홍익인간정신허가권(클릭)에 의거하여 출처를 밝히는 조건으로 얼마든지 퍼가거나 재활용 하셔도 좋습니다. 다만, 영리 목적의 재활용/출판/판매 인용은 법에 저촉되므로 사전에 운영자와 협의하시기 바랍니다
ABOUT 1) 통계분석의 재료 - 확률② 확률과 통계의 관계 - 느닷없이 확률을 배우는 이유  
③ 초간단 Permutation(순열)과 Combination(조합)
④ 확률의 시작, Binomial Distribution(이항분포)의 감상
⑤ 가우시안(Gaussian) - 정규분포(Normal Distribution). 너란 분포 정말
⑥ 중심극한정리에 대한 오해, 많으면 무조건 정규분포 OK???
⑦ Binomial의 Gaussian으로의 근사의 실체 - 중심극한정리를 이용한
⑩ 많이 들어는 본 확률 분포들에 관한 밥먹으면서 읽는 이야기  
⑪ 통계분석에 사용 되는 확률 분포 3형제 - t, χ², F분포 (1)
⑭ 주어진 데이터에 대해 가장 적합한 확률 분포 찾기 - 확률분포의 추정
⑮ 관측한 데이터만으로 (비모수적으로) 확률분포 추정해서 만드는 방법
※ "선형대수"라고 하기엔 너무 거창하고 간단한 "행렬곱" 정도의 이해
※ WᵀX VS.WXᵀ (상식) 
※ 복원추출과 비복원추출에 대한 이야기 (상식) 
2) 통계분석의 원리 - 추정
① 이 데이터를 보고 드는 생각은요? 데이터 디스렉시아
③ 왜 표본분산은 n-1로 나누죠? 자유도, 불편추정량에 대한 고백
④ n-1은 왜 자유도라고 불리는가요? 자유도의 정체와 직관적인 이해
⑧ 모비율의 추정 - 시청률이라는 것을 추정해 보는 꿈같은 이야기
⑩ 신뢰수준을 높이면 신뢰구간은 넓어진다. 사기 같은 이야기
⑪ 표준편차와 표준오차 개념, 그리고 표본오차, 오차한계와 오차범위… 선거기사를 읽는 유식함
⑬ 그 유명한 A/B 테스트 결과를 신뢰구간을 이용해서 분석해 보는 이야기
⑮ 우도란 도대체 무엇인가 - 가능도, Likelihood라고도 불리는 것의 카오스적인 납득
⑯ 최대우도추정법(MLE)을 산수를 곁들여 즐기는 향유
3) 결과주장의 증명 - 검정
① 가설검정의 정체를 간단하게 한번 쓱 둘러보는 느긋함
② 귀무/대립가설 설정은 이제 더 이상 헷갈리면 인간이 아님 - 가설검정과 설정의 틀 -
④ p value은 왜 극단치를 더할까; False Positive, False Negative에 관한 α이야기
⑤ 진짜 평균이 그래도 되나. t분포 - One Sample t-test -
⑥ 2개 집단 간에 차이가 나는가? Independent Samples t-검정 에 대한 심플함
⑧ 대응표본 차이 검정의 유익함 - Paired t test -
⑨ 표본의 크기 vs 표본의 개수, 정규화-정규화-정규화?
⑩ 표본 크기가 작을 때(n<30)는 어떻게 해야 하죠? 정규성 검정은 꼭? 이걸 모르면 궁금증의 지옥 행
⑪ 통계분석에 사용 되는 검정 3형제 - t, χ², F 검정 (2)
⑫ 독립성(연관성), 동질성 검정의 차이와 그들의 정체 - χ² 카이스퀘어 검정
⑬ 어디에 어떤 모수 검정과 비모수 검정을 쓸 수 있는지 대탐험 - 그리고 파이썬
4) 본격적 통계분석 - 분석
① 데이터분석과 통계분석 - 너희 도대체 어떻게 하는거니?
③ 분산분석(ANOVA) 아니, 다집단 차이에 왜 갑자기 분산을 보지요?
④ 귀찮겠지만 ANOVA의 Post Hoc (사후분석)을 해 보자
⑤ RMANOVA (Repeated Measured ANOVA, 반복측정 ANOVA)의 우아함
⑥ 크로스집계표(cross tabulation) VS 피봇테이블(pivot)의 속사정
⑦ 교차분석의 완성 = Cross Tabulation + χ² Testing + Cramer V 연관도
⑧ Covariance 공분산과 Pearson 상관계수의 속사정. 그리고 Spearman의 꼽사리
⑪ PCA - 고윳값과 고유벡터에 근거한 Feature Extraction
⑫ 설문지 분석에는 다양한 분석이 사용된다. 놀라지 마세요. 응?
5) 관계적 통계분석 - 회귀③ 에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 맛보기
④ 회귀분석 결과의 해석과 R²(설명력,결정계수)의 의미, 그리고 R²은 상관계수의 제곱. 응?
⑤ 회귀와 검정 - 회귀분석결과가 괜찮은가? 통계적인 해석 t, F검정, 그리고 갑분싸 ANOVA 엥?
⑥ 다중회귀 - 결과해석과 손으로 회귀 구해보기, 그리고 R²는 줄어들지 않는다.
⑦ 유의하지 않은 계수를 어쩐다? 왜 이런 일이 벌어지는 걸까? 다중공선성의 탐지
⑧ 유의하지 않은 계수를 어쩐다? 다중공선성은 악당일까? 상관이나 VIF높으면 다 버릴까?
⑨ 회귀분석과 회귀예측은 뭐가 다름? 다중공선성은 이제 잊어요.
⑩ 설마 범주형 독립변수도 회귀가 가능한가요? - Dummy Variable
⑪ 데이터를 로그 변환 했을 때 벌어지는 일과 결과 해석
⑫ Logistic Regression의 환장파티 - Sigmoid 출력값이 왜 확률인가요?
⑬ Logistic 예측 모형에서의 변수 선택 방법 - Information Value
⑭ Decision Boundary- Logistic Regression과 Classification의 차이
⑮ 종속변수가 더 특이하면 어쩌죠? 일반화회귀(GLM)의 Link함수는 어떻게 정함?
6) 베이지안적인 사고 방식 - 간지② 베이즈 추론의 기본원칙은 정보를 얻으면 확률이 갱신된다는 것이다
③ 베이즈 정리를 이용할 때 문제를 쉽게 푸는 비밀 공식
④ 베이지안 통계의 시작 : 모수분포 추론 - 무정보분포 Uniform로부터 - MAP 맛보기
⑤ 베이지안 통계는 가우시안(정규분포)도 쌉가능 - Conjugate?
⑥ Conjugate Prior (켤레 사전분포) - 양말 한 켤레
⑦ 이항분포 모수 추정과 베타분포 - 본격 Conjugate - 이걸 암산가능? (+디리클레분포)
⑧ 사실 암산으로 대부분 어렵습니다. - MCMC (마코프체인 몬테카를로)
⑩ MLE과 MAP, 그리고 회귀방법 (최소좌승법-OLS, 정규화-Ridge)의 랑데뷰
7) 기계가 학습? 한다는 건 - 기초② 최적화 문제의 해법 Cost, Optimizer 만 알면 만병통치약임
④ 유전자 알고리즘으로 인공 신경망을 학습시켜보자. 이것도 돼?
⑤ 라그랑주 승수법을 이해하기 어렵나요? - 제약사항에 대한 최대, 최소값에 적용
⑥ Gradient Descent로 Cost의 최소값을 찾아가보자. 그김에 회귀도 해 보지 머.
⑦ 유사도Similarity와 거리들 - 여기에서 많은 것들이 시작된다.
⑧ Attention : 유사도 응용의 끝판왕, 그리고 이건 언젠간 알아야 한다.
⑩ Information과 Entropy - 답변을 받아 알아내면 그게 정보다.
⑪ 학습곡선 - Underfitting:Overfitting=Bias:Variance 예측모형 아수라장
8) 기계학습과 데이터마이닝 - 헐① 의사결정나무(Decision Tree)는 이렇게 동작함 
② 의사결정나무를 앙상블하면 숲이된다. - Bagging - 랜덤포레스트 
③ Boosting은 또 뭐다냐. - AdaBoost  
데이터 과학이란 도대체 무엇인가, 같이 한번 가봐요. 요컨대, 데이터과학자들이 하는 이야기를 "음. 음. 그렇단 말이지. 나도 한번 해 볼까?" 정도가 되는 것이 목표랄까요.