
분명 전산학부 졸업 했는데 코딩 개못하는 조준호/AI, ML, DL2024. 7. 20. 15:55역시 ML의 시작은 타이타닉 - (2) Preprocess 후 Tensorflow DataSet으로 전환
다음으로 데이터들을 불러와야 한다. pd.read_csv() 위 함수를 사용하면 해당 경로에 있는 CSV 파일을 읽을 수 있다. CSV 파일은 "Comma-Separated Values"의 약자로 말 그대로 쉼표로 구분된 값들을 가진 파일 형식이다. 이런 식으로 헤더와 데이터 행으로 구성되어 있다. 원본 데이터는 예쁘지 않으니까 preprocess를 해야 한다. (데이터 정리 및 형식 통일, 노이즈 제거, 스케일 일치시키기 등을 한다.) df = df.copy() 위 코드를 통해 원래 데이터를 deep copy로 복사해 온다. def normalize_name(x): return "-".join([v.strip(",().\"'") for v in x.split(" ")])def ticket_n..