scipy/ sklearn/ stats 모듈의 구조이고, 이 구조가 대략 머리속에 있으면 편합니다.
scipy.stats
│
├── 01 T-test
│ │
│ ├── ttest_1samp (단일표본 t검정)
│ ├── ttest_ind (독립표본 t검정)
│ └── ttest_rel (대응표본 t검정)
│
├── 02 비모수 검정
│ │
│ ├── mannwhitneyu (맨-휘트니 U 검정 - 중위수 = 윌콕슨 순위합 검정과 동일)
│ ├── ranksums (윌콕슨 순위합 검정 - 중위수)
│ └── wilcoxon (윌콕슨 부호 순위합 검정)
│
├── 03 정규정 검정
│ │
│ ├── anderson (Anderson-Darling , 데이터수가 상대적으로 많을 때)
│ ├── kstest (Kolmogorov-Smirnov , 데이터수가 상대적으로 많을 때)
│ ├── mstats.normaltest
│ └── shapiro (shapiro, 가장 엄격하게 검정, 데이터수가 상대적으로 적을때)
│
├── 04 등분산 검정
│ │
│ ├── bartlett
│ ├── fligner
│ └── levene
│
├── 05 카이제곱검정
│ │
│ ├── chi2_contingency (카이제곱독립검정, 독립성 검정)
│ ├── chisquare (카이제곱검정 , 적합도 검정)
│ └── fisher_exact (피셔 정확 검정 - 빈도수가 5개 이하 셀의 수가 전체 셀의 20%이상 )
│
└── 06 ANOVA (일원분산분석)
│
└── f_oneway
sklearn
│
├── 01 preprocessing (전처리)
│ │
│ ├── 스케일러
│ │ ├── MinMaxScaler
│ │ ├── RobustScaler
│ │ └── StandardScaler
│ │
│ └── 인코더
│ ├── LabelEncoder
│ └── OneHotEncoder
│
├── 02 model_selection (모델링 전처리)
│ │
│ ├── 데이터셋 분리
│ │ ├── KFold
│ │ ├── StratifiedKFold
│ │ └── train_test_split
│ │
│ └── 하이퍼파라미터 튜닝
│ └── GridSearchCV
│
├── 03 모델학습
│ │
│ ├── ensemble
│ │ ├── AdaBoostClassifier
│ │ ├── GradientBoostingClassifier
│ │ ├── RandomForestClassifier
│ │ └── RandomForestRegressor
│ │
│ ├── linear_model
│ │ ├── LogisticRegression
│ │ └── RidgeClassifier
│ │
│ ├── neighbors
│ │ └── KNeighborsClassifier
│ │
│ ├── svm
│ │ ├── SVC
│ │ └── SVR
│ │
│ └── tree
│ ├── DecisionTreeClassifier
│ ├── DecisionTreeRegressor
│ ├── ExtraTreeClassifier
│ └── ExtraTreeRegressor
│
├── 04 모델평가
│ │
│ ├── metrics
│ │ ├── accuracy_score
│ │ ├── classification_report
│ │ ├── confusion_matrix
│ │ ├── f1_score
│ │ ├── log_loss
│ │ ├── mean_absolute_error
│ │ ├── mean_squared_error
│ │ └── roc_auc_score
│ │
│ └── model (정의된 모델에서 추출)
│ ├── predict
│ └── predict_proba
│
└── 05 최종앙상블
│
└── ensemble
├── StackingClassifier
├── StackingRegressor
├── VotingClassifier
└── VotingRegressor
statsmodels
│
├── 01 사후분석
│ │
│ └──stats
│ └── multicomp
│ ├── MultiComparison
│ │ └── allpairtest
│ └── pairwise_tukeyhsd
│
├── 02 시계열분석
│ │
│ ├── graphics.tsaplots
│ │ ├── plot_acf
│ │ └── plot_pacf
│ └── tsa
│ ├── arima_model
│ │ └── ARIMA
│ └── statesplace.sarimax
│ └── SARIMAX
│
├── 03 ANOVA
│ │
│ ├─ 이원분산분석
│ └── 일원분산분석
│ └── stats.anova
│ └── anova_lm
│
└── 04 회귀분석
│
└── formula.api
└── ols
댓글