'kaggle' 태그의 글 목록

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 9. 8. 21:24Kaggle Competition - Binary Prediction of Poisonous Mushrooms (6) 최종 제출

https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 완성된 XGBoost 모델로 추정을 시작하자! lime 패키지를 불러오는데 이는 머신러닝 모델의 예측을 설명하는 데 사용된다. redict_fn_xgb라는 함수는 (왜 앞에 p가 빠졌는지는 모르겠다,, 단순 오타가 아니라 이후에도 계속 이렇게 사용된다) 입력값 x를 받으면 이에 해..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 9. 6. 11:43Kaggle Competition - Binary Prediction of Poisonous Mushrooms (5) 모델 학습 및 생성

https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 이제 전처리가 끝났으니 모델 만들고 훈련을 시킵시다! (신기한 점은 전처리 과정에서 별다른 거 하지 않고 단순하게 결측치만 KNN 처리했는데도 점수가 잘 나온다는 점이다!) train_X, test_X, train_y, test_y = train_test_split(X, y, tes..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 9. 6. 11:10Kaggle Competition - Binary Prediction of Poisonous Mushrooms (4) Imputing

https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com cols_to_drop_train = missing_train[missing_train > 95].indexcols_to_drop_test = missing_test[missing_test > 95].indexdf_train = df_train.drop(columns=cols_to_dr..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 9. 2. 14:43Kaggle Competition - Binary Prediction of Poisonous Mushrooms (3) EDA 시각화

https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis/notebook 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com cap-shape와 cap-color를 기준으로 그룹화하고 해당되는 데이터의 수를 feature_counts에 넣는다.이후, px.sunburst 함수를 사용해서 시각화한다. 다음으로 sankey chart로 만들자. 데이터의 '흐름'을 볼 수 있다. import plotly.gra..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 9. 2. 14:23Kaggle Competition - Binary Prediction of Poisonous Mushrooms (2) EDA correlation matrix

https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis 🌴Mushroom🎉Classification📈AnalysisExplore and run machine learning code with Kaggle Notebooks | Using data from multiple data sourceswww.kaggle.com 이제 EDA를 하자! 시각화를 위해 seaborn을 데려온다.isna()를 통해 값이 NaN이면 True, 아니면 False를 만드는데 이를 mean()에 넣으면 True는 1로 계산이 되기 때문에 여기에 mean()을 하고 100을 곱하면 "해당 column에 있는 NaN 값의 비율"을 얻을 수 있..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 9. 2. 12:28Kaggle Competition - Binary Prediction of Poisonous Mushrooms (1) EDA 전까지

https://www.kaggle.com/competitions/playground-series-s4e8/overview Binary Prediction of Poisonous Mushrooms | Kaggle www.kaggle.com 버섯의 생김새를 보고 이게 먹을 수 있는 버섯인지 '살아생전 한 번만 먹을 수 있는' 버섯인지를 구별하는 classification 문제다. (혼자 해보려다가 초반에는 다른 좋은 코드들을 보고 배우는 것이 우선이라 생각해서 똑똑이들의 코드를 분석할 거임) https://www.kaggle.com/code/satyaprakashshukl/mushroom-classification-analysis 🌴Mushroom🎉Classification📈AnalysisExplore..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 7. 24. 11:00역시 ML의 시작은 타이타닉 - (5) hyperparameter 튜닝

모델을 학습시킬 때 hyperparameter tunning을 해보자. 그나저나 본고에서 모델을 학습시킬 때 세 가지 방법을 사용했는데, 각각을 보면 얘는 기본. 성능보다는 속도를 중시한다. 개발자가 해당 문제에 대해 지식이 조금 있는 경우 parameter를 조정할 수 있다. 모델이 parameter를 학습하는 과정을 보완하는 것이다. 얘가 시간이 가장 오래 걸린다. 아무튼 hypterparameter tunning을 해서 모델을 학습시키자. tuner = tfdf.tuner.RandomSearch(num_trials=1000) 먼저 튜너를 설정한다. 이 튜너를 통해 무작위의 1,000개의 hyperparameter 조합을 시도한다. tuner.choice("min_examples", [2, ..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 7. 20. 19:45역시 ML의 시작은 타이타닉 - (4) GBT 모델 뜯어보기

improved parameters로 만든 모델을 해부해 보자. model.summary() 이렇게 입력을 하면 아주 길게 이것저것 나오니까 잘라서 확인하자. Model: "gradient_boosted_trees_model_1"_________________________________________________________________ Layer (type) Output Shape Param # ==================================================================================================================================Total para..

분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 7. 20. 17:43역시 ML의 시작은 타이타닉 - (3) 모델 만들고 학습시키고 평가하기

이제 모델을 만들고 학습해야 한다. model = tfdf.keras.GradientBoostedTreesModel() 이 코드를 통해 TensorFlow Decision Forests (TF-DF) 라이브러리를 사용해 Gradient Boosted Trees 모델을 만든다. 함수 내부의 parameter를 보자. verbose=0 verbose는 "장황한"이라는 뜻이다. 이 값이 0이면 훈련 과정 중 출력이 거의 없다. 기본값은 1로 에포크당 loss나 accuracy 등의 요약 정보를 출력한다. 1보다 커질 수도 있는데 커지면 커질수록 더 자세한 정보를 제공한다. features=[tfdf.keras.FeatureUsage(name=n) for n in input_features] 사용할 featu..

티스토리툴바