본문 바로가기
scipy/ sklearn/ statsmodel 모듈 구조

scipy/ sklearn/ stats 모듈의 구조이고, 이 구조가 대략 머리속에 있으면 편합니다.

scipy.stats

├── 01 T-test
│  │
│  ├── ttest_1samp (단일표본 t검정)
│  ├── ttest_ind (독립표본 t검정)
│  └── ttest_rel (대응표본 t검정)

├── 02 비모수 검정
│  │
│  ├── mannwhitneyu (맨-휘트니 U 검정 - 중위수 = 윌콕슨 순위합 검정과 동일)
│  ├── ranksums (윌콕슨 순위합 검정 - 중위수)
│  └── wilcoxon (윌콕슨 부호 순위합 검정)

├── 03 정규정 검정
│  │
│  ├── anderson (Anderson-Darling , 데이터수가 상대적으로 많을 때)
│  ├── kstest (Kolmogorov-Smirnov , 데이터수가 상대적으로 많을 때)
│  ├── mstats.normaltest
│  └── shapiro (shapiro, 가장 엄격하게 검정, 데이터수가 상대적으로 적을때)

├── 04 등분산 검정
│  │
│  ├── bartlett
│  ├── fligner
│  └── levene

├── 05 카이제곱검정
│   │
│  ├── chi2_contingency (카이제곱독립검정, 독립성 검정)
│  ├── chisquare (카이제곱검정 , 적합도 검정)
│  └── fisher_exact (피셔 정확 검정 - 빈도수가 5개 이하 셀의 수가 전체 셀의 20%이상 )

└── 06 ANOVA (일원분산분석)

└── f_oneway

sklearn

├── 01 preprocessing (전처리)
│  │
│  ├── 스케일러
│  │  ├── MinMaxScaler
│  │  ├── RobustScaler
│  │  └── StandardScaler
│  │
│  └── 인코더
│  ├── LabelEncoder
│  └── OneHotEncoder

├── 02 model_selection (모델링 전처리)
│  │
│  ├── 데이터셋 분리
│  │  ├── KFold
│  │  ├── StratifiedKFold
│  │  └── train_test_split
│ │
│  └── 하이퍼파라미터 튜닝
│  └── GridSearchCV

├── 03 모델학습
│  │
│  ├── ensemble
│  │  ├── AdaBoostClassifier
│  │  ├── GradientBoostingClassifier
│  │  ├── RandomForestClassifier
│  │  └── RandomForestRegressor
│  │
│  ├── linear_model
│  │  ├── LogisticRegression
│  │  └── RidgeClassifier
│  │
│  ├── neighbors
│  │  └── KNeighborsClassifier
│  │
│  ├── svm
│  │  ├── SVC
│  │  └── SVR
│  │
│  └── tree
│  ├── DecisionTreeClassifier
│  ├── DecisionTreeRegressor
│  ├── ExtraTreeClassifier
│  └── ExtraTreeRegressor

├── 04 모델평가
│  │
│  ├── metrics
│  │  ├── accuracy_score
│  │  ├── classification_report
│  │  ├── confusion_matrix
│  │  ├── f1_score
│  │  ├── log_loss
│  │  ├── mean_absolute_error
│  │  ├── mean_squared_error
│  │  └── roc_auc_score
│  │
│  └── model (정의된 모델에서 추출)
│  ├── predict
│  └── predict_proba

└── 05 최종앙상블

└── ensemble
├── StackingClassifier
├── StackingRegressor
├── VotingClassifier
└── VotingRegressor

statsmodels

├── 01 사후분석
│  │
│  └──stats
│  └── multicomp
│  ├── MultiComparison
│  │  └── allpairtest
│  └── pairwise_tukeyhsd

├── 02 시계열분석
│  │
│  ├── graphics.tsaplots
│  │  ├── plot_acf
│  │  └── plot_pacf
│  └── tsa
│  ├── arima_model
│  │  └── ARIMA
│  └── statesplace.sarimax
│  └── SARIMAX

├── 03 ANOVA
│  │
│  ├─  이원분산분석
│  └── 일원분산분석
│  └── stats.anova
│  └── anova_lm

└── 04 회귀분석

└── formula.api
└── ols

친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -



댓글





친절한 데이터 사이언스 강좌 글 전체 목차 (정주행 링크) -