본문 바로가기

강의실 전체맵

- 본 강좌 내용은 홍익인간정신허가권(클릭)에 의거하여 출처를 밝히는 조건으로 얼마든지 퍼가거나 재활용 하셔도 좋습니다. 다만, 영리 목적의 재활용/출판/판매 인용은 법에 저촉되므로 사전에 운영자와 협의하시기 바랍니다

ABOUT

About

1) 통계분석의 재료 - 확률

① 확률과 통계에 관한 소고

② 확률과 통계의 관계 - 느닷없이 확률을 배우는 이유  

③ 초간단 Permutation(순열)과 Combination(조합)

④ 확률의 시작, Binomial Distribution(이항분포)의 감상

⑤ 가우시안(Gaussian) - 정규분포(Normal Distribution). 너란 분포 정말

⑥ 중심극한정리에 대한 오해, 많으면 무조건 정규분포 OK???

⑦ Binomial의 Gaussian으로의 근사의 실체 - 중심극한정리를 이용한

⑧ 왜 가우시안 분포가 이렇게도 많을까?

⑨ 큰 수의 법칙에 대한 수긍과 베이지안풍의 접근

⑩ 많이 들어는 본 확률 분포들에 관한 밥먹으면서 읽는 이야기  

⑪ 통계분석에 사용 되는 확률 분포 3형제 - t, χ², F분포 (1)

⑫ 베이지안에 사용하자 - β분포에 관하여

⑬ 확률분포들의 족보에 관한 관계 보고서

⑭ 주어진 데이터에 대해 가장 적합한 확률 분포 찾기 - 확률분포의 추정

⑮ 관측한 데이터만으로 (비모수적으로) 확률분포 추정해서 만드는 방법

※ "선형대수"라고 하기엔 너무 거창하고 간단한 "행렬곱" 정도의 이해

※ 데이터의 표현 방법 (상식)

※ WᵀX VS.WXᵀ (상식) 

※ 복원추출과 비복원추출에 대한 이야기 (상식) 


2) 통계분석의 원리 - 추정

① 이 데이터를 보고 드는 생각은요? 데이터 디스렉시아

② 표본분포의 씁쓸함

③ 왜 표본분산은 n-1로 나누죠? 자유도, 불편추정량에 대한 고백

④ n-1은 왜 자유도라고 불리는가요? 자유도의 정체와 직관적인 이해

⑤ 추론 = 추정 + 검정

⑥ 신뢰도, 신뢰구간을 이용한 추정이야기의 시작

⑦ 드디어 모집단 평균을 구간으로 추정 해보자 으쌰

⑧ 모비율의 추정 - 시청률이라는 것을 추정해 보는 꿈같은 이야기

⑨ 모분산을 추정하는 그렇고 그런 아주 짧은 이야기

⑩ 신뢰수준을 높이면 신뢰구간은 넓어진다. 사기 같은 이야기

⑪ 표준편차와 표준오차 개념, 그리고 표본오차, 오차한계와 오차범위… 선거기사를 읽는 유식함

⑫ 그래서, 적당한 표본의 크기는요?

⑬ 그 유명한 A/B 테스트 결과를 신뢰구간을 이용해서 분석해 보는 이야기

⑭ 부트스트랩에 관한 이게 무슨 소리인가 하는 이야기

⑮ 우도란 도대체 무엇인가 - 가능도, Likelihood라고도 불리는 것의 카오스적인 납득

⑯ 최대우도추정법(MLE)을 산수를 곁들여 즐기는 향유


3) 결과주장의 증명 - 검정

① 가설검정의 정체를 간단하게 한번 쓱 둘러보는 느긋함

② 귀무/대립가설 설정은 이제 더 이상 헷갈리면 인간이 아님 - 가설검정과 설정의 틀 -

③ p value를 직접 계산해 보는 숙연함

④ p value은 왜 극단치를 더할까; False Positive, False Negative에 관한 α이야기

⑤ 진짜 평균이 그래도 되나. t분포 - One Sample t-test -

⑥ 2개 집단 간에 차이가 나는가? Independent Samples t-검정 에 대한 심플함

⑦ 비율에 관한 검정 이야기와 A/B테스트

⑧ 대응표본 차이 검정의 유익함 - Paired t test -

⑨ 표본의 크기 vs 표본의 개수, 정규화-정규화-정규화?

⑩ 표본 크기가 작을 때(n<30)는 어떻게 해야 하죠? 정규성 검정은 꼭? 이걸 모르면 궁금증의 지옥 행

⑪ 통계분석에 사용 되는 검정 3형제 - t, χ², F 검정 (2)

⑫ 독립성(연관성), 동질성 검정의 차이와 그들의 정체 - χ² 카이스퀘어 검정

⑬ 어디에 어떤 모수 검정과 비모수 검정을 쓸 수 있는지 대탐험 - 그리고 파이썬


4) 본격적 통계분석 - 분석

① 데이터분석과 통계분석 - 너희 도대체 어떻게 하는거니?

② 왜 t검정은 보통 분석이라고 불리지 않는 것일까?

③ 분산분석(ANOVA) 아니, 다집단 차이에 왜 갑자기 분산을 보지요?

④ 귀찮겠지만 ANOVA의 Post Hoc (사후분석)을 해 보자

⑤ RMANOVA (Repeated Measured ANOVA, 반복측정 ANOVA)의 우아함

⑥ 크로스집계표(cross tabulation) VS 피봇테이블(pivot)의 속사정

⑦ 교차분석의 완성 = Cross Tabulation + χ² Testing + Cramer V 연관도

⑧ Covariance 공분산과 Pearson 상관계수의 속사정. 그리고 Spearman의 꼽사리

⑨ 전격 상관분석, 그리고 이거 왜 하나.

⑩ 초간단 선형대수 - 행렬의 기하학적인 의미와 해석

⑪ PCA - 고윳값과 고유벡터에 근거한 Feature Extraction

⑫ 설문지 분석에는 다양한 분석이 사용된다. 놀라지 마세요. 응?

5) 관계적 통계분석 - 회귀

① 도대체 왜 회귀는 회귀라고 불리는 걸까

② 상관분석 : 회귀분석 = 상관관계 : 인과관계?

③ 에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 맛보기

④ 회귀분석 결과의 해석과 R²(설명력,결정계수)의 의미, 그리고 R²은 상관계수의 제곱. 응?

⑤ 회귀와 검정 - 회귀분석결과가 괜찮은가? 통계적인 해석 t, F검정, 그리고 갑분싸 ANOVA 엥?

⑥ 다중회귀 - 결과해석과 손으로 회귀 구해보기, 그리고 R²는 줄어들지 않는다.

⑦ 유의하지 않은 계수를 어쩐다? 왜 이런 일이 벌어지는 걸까? 다중공선성의 탐지

⑧ 유의하지 않은 계수를 어쩐다? 다중공선성은 악당일까? 상관이나 VIF높으면 다 버릴까?

⑨ 회귀분석과 회귀예측은 뭐가 다름? 다중공선성은 이제 잊어요.

⑩ 설마 범주형 독립변수도 회귀가 가능한가요? - Dummy Variable

⑪ 데이터를 로그 변환 했을 때 벌어지는 일과 결과 해석

⑫ Logistic Regression의 환장파티 - Sigmoid 출력값이 왜 확률인가요?

⑬ Logistic 예측 모형에서의 변수 선택 방법 - Information Value

⑭ Decision Boundary- Logistic Regression과 Classification의 차이

⑮ 종속변수가 더 특이하면 어쩌죠? 일반화회귀(GLM)의 Link함수는 어떻게 정함?

6) 베이지안적인 사고 방식 - 간지

① 알게되면 사랑스러운 조건부 확률

② 베이즈 추론의 기본원칙은 정보를 얻으면 확률이 갱신된다는 것이다

③ 베이즈 정리를 이용할 때 문제를 쉽게 푸는 비밀 공식

④ 베이지안 통계의 시작 : 모수분포 추론 - 무정보분포 Uniform로부터 - MAP 맛보기

⑤ 베이지안 통계는 가우시안(정규분포)도 쌉가능 - Conjugate?

⑥ Conjugate Prior (켤레 사전분포) - 양말 한 켤레

⑦ 이항분포 모수 추정과 베타분포 - 본격 Conjugate - 이걸 암산가능? (+디리클레분포)

⑧ 사실 암산으로 대부분 어렵습니다. - MCMC (마코프체인 몬테카를로)

⑨ 베이지안 A/B 테스트와 신뢰구간.도 있어?

⑩ MLE과 MAP, 그리고 회귀방법 (최소좌승법-OLS, 정규화-Ridge)의 랑데뷰

7) 기계가 학습? 한다는 건 - 기초

① 유전자 알고리즘으로 약간의 기계학습 체감

② 최적화 문제의 해법 Cost, Optimizer 만 알면 만병통치약임

③ 모형과 학습이란 무엇인가에 대한 소고

④ 유전자 알고리즘으로 인공 신경망을 학습시켜보자. 이것도 돼?

⑤ 라그랑주 승수법을 이해하기 어렵나요? - 제약사항에 대한 최대, 최소값에 적용

⑥ Gradient Descent로 Cost의 최소값을 찾아가보자. 그김에 회귀도 해 보지 머.

⑦ 유사도Similarity와 거리들 - 여기에서 많은 것들이 시작된다.

⑧ Attention : 유사도 응용의 끝판왕, 그리고 이건 언젠간 알아야 한다.

⑨ 평균과 기대값에 관하여

⑩ Information과 Entropy - 답변을 받아 알아내면 그게 정보다.

⑪ 학습곡선 - Underfitting:Overfitting=Bias:Variance 예측모형 아수라장

8) 기계학습과 데이터마이닝 - 헐

① 의사결정나무(Decision Tree)는 이렇게 동작함 

② 의사결정나무를 앙상블하면 숲이된다. - Bagging - 랜덤포레스트 

③ Boosting은 또 뭐다냐. - AdaBoost  











데이터 과학이란 도대체 무엇인가, 같이 한번 가봐요. 요컨대, 데이터과학자들이 하는 이야기를 "음. 음. 그렇단 말이지. 나도 한번 해 볼까?" 정도가 되는 것이 목표랄까요.