💡 모듈 불러오기import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import TimeSeriesSplitfrom sklearn.metrics import mean_squared_error, mean_absolute_error, r2_scoreimport matplotlib.pyplot as pltfrom keras.models import Sequentialfrom keras.layers import LSTM, Dense, Dropoutfrom keras.callbacks import EarlyStopping 💡 데이터 불러오기# 데이터 불러..
https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 완성된 XGBoost 모델로 추정을 시작하자! lime 패키지를 불러오는데 이는 머신러닝 모델의 예측을 설명하는 데 사용된다. redict_fn_xgb라는 함수는 (왜 앞에 p가 빠졌는지는 모르겠다,, 단순 오타가 아니라 이후에도 계속 이렇게 사용된다) 입력값 x를 받으면 이에 해..
https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 이제 전처리가 끝났으니 모델 만들고 훈련을 시킵시다! (신기한 점은 전처리 과정에서 별다른 거 하지 않고 단순하게 결측치만 KNN 처리했는데도 점수가 잘 나온다는 점이다!) train_X, test_X, train_y, test_y = train_test_split(X, y, tes..
https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com cols_to_drop_train = missing_train[missing_train > 95].indexcols_to_drop_test = missing_test[missing_test > 95].indexdf_train = df_train.drop(columns=cols_to_dr..
https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com cap-shape와 cap-color를 기준으로 그룹화하고 해당되는 데이터의 수를 feature_counts에 넣는다.이후, px.sunburst 함수를 사용해서 시각화한다. 다음으로 sankey chart로 만들자. 데이터의 '흐름'을 볼 수 있다. import plotly.gra..
https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 이제 EDA를 하자! 시각화를 위해 seaborn을 데려온다.isna()를 통해 값이 NaN이면 True, 아니면 False를 만드는데 이를 mean()에 넣으면 True는 1로 계산이 되기 때문에 여기에 mean()을 하고 100을 곱하면 "해당 column에 있는 NaN 값의 비율"을 얻을 수 있..
https://www.kaggle.com/competitions/playground-series-s4e8/overview Binary Prediction of Poisonous Mushrooms | Kaggle www.kaggle.com 버섯의 생김새를 보고 이게 먹을 수 있는 버섯인지 '살아생전 한 번만 먹을 수 있는' 버섯인지를 구별하는 classification 문제다. (혼자 해보려다가 초반에는 다른 좋은 코드들을 보고 배우는 것이 우선이라 생각해서 똑똑이들의 코드를 분석할 거임) https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis 🌴Mushroom🎉Classification📈AnalysisExplore..
모델을 학습시킬 때 hyperparameter tunning을 해보자. 그나저나 본고에서 모델을 학습시킬 때 세 가지 방법을 사용했는데, 각각을 보면 얘는 기본. 성능보다는 속도를 중시한다. 개발자가 해당 문제에 대해 지식이 조금 있는 경우 parameter를 조정할 수 있다. 모델이 parameter를 학습하는 과정을 보완하는 것이다. 얘가 시간이 가장 오래 걸린다. 아무튼 hypterparameter tunning을 해서 모델을 학습시키자. tuner = tfdf.tuner.RandomSearch(num_trials=1000) 먼저 튜너를 설정한다. 이 튜너를 통해 무작위의 1,000개의 hyperparameter 조합을 시도한다. tuner.choice("min_examples", [2, ..
improved parameters로 만든 모델을 해부해 보자. model.summary() 이렇게 입력을 하면 아주 길게 이것저것 나오니까 잘라서 확인하자. Model: "gradient_boosted_trees_model_1"_________________________________________________________________ Layer (type) Output Shape Param # ==================================================================================================================================Total para..