Machine-Learning 용어정리 (데이터셋)

2024. 10. 22. 11:51·용어정리/Machine-Learning

 

파일 불러오기

머신러닝에 필수적인 요소인 데이터를 외부 파일에서 불러오는 법을 알아보겠다.

 

우선 데이터 파일은 2종류의 파일로 나뉠수 있다.

 

  1. csv파일
  2. excel파일

각각 불러오는 방법은 다르지만 문법은 거의 비슷하다고 볼 수 있다.

 

 

import pandas as pd

# CSV 파일 불러오기
csvdf = pd.read_csv('data.csv')

# 엑셀 파일 불러오기
exdf = pd.read_excel('data.xlsx', sheet_name='Sheet1')

csvdf
exdf

 

이렇게 pandas를 가져와서 read_ csv또는 excel로 불러 올 수 있다.

 

 

excel파일의 경우 시트가 여러개 존재 할 수 있으니, 올바른 시트 또한 같이 불러 올 수 있게 한다.

 

 

 


데이터셋 구조 확인하기

데이터를 불러왔으면, 그 데이터의 구조가 어떻게 되어 있는지 확인을 해야 한다.

이 데이터의 구조를 확인해야 우리가 올바르게 사용을 할 수 있다.

 

 

구조를 확인하는 기본적인 것들은

  1. 크기 확인하기
  2. 컬럼명 확인하기
  3. 데이터 타입 확인하기
  4. 통계량 확인하기
  5. 정보 확인하기

 

가 있다.

 

이는 google colab을 이용해서 예제를 추가해 보겠다.

 

Dataset_file_load.ipynb - Colab

 

Dataset_file_load.ipynb

Run, share, and edit Python notebooks

colab.research.google.com

 

 

 


캐글

캐글은 머신러닝 및 데이터 과학 경진대회 플랫폼으로 데이터를 분석하며 모델을 개발하는데

필요한 데이터셋과 도구를 제공해주는 사이트이다.

 

우리는 여기서 데이터와 다른사람들의 데이터 처리를 볼 수 있고 가져올 수 있다.

 

 

 


데이터셋 다운받기

캐글에서 데이터를 받기 위해서는 vscode가 아닌 git bash 또는 anaconda와 같은 프롬프트를 사용해야 한다.

 

 

anaconda를 예시로 설명하겠다.

 

 

kaggle 설치하기

conda install kaggle

 

 

 

kaggle에서 타이타닉 데이터 받아오기

kaggle datasets download -d titanic

 

 

파일이 다운받아진다. 이를 압축을 푼 다음 원하는 위치로 이동 시키면 된다.

 

 

 


캐글 파일 열기

 

캐글의 파일을 열기 위해서는 똑같이 read를 사용하면 된다.

 

이유는 캐글의 파일은 csv의 형식이기 때문이다.

 

만약 csv의 위치가 코드와 같이 있지 않다면, 

 

train_df = pd.read_csv('위치\titanic.csv')

 

위의 코드를 따라해 보자.

 

저작자표시 비영리 변경금지

'용어정리 > Machine-Learning' 카테고리의 다른 글

Machine-Learning 용어정리 (K-means clustering)  (0) 2024.10.23
Machine-Learning 용어정리 (SVM, KNN, 나이브베이즈, 의사결정나무) ver 2  (1) 2024.10.23
Machin-Learning 용어정리 (로지스틱 회귀)  (0) 2024.10.21
Machine - Learning 용어정리 (지도학습 - 회귀모델) ver 3  (0) 2024.10.19
machine-learning 용어정리 (전처리) ver 4  (1) 2024.10.16
'용어정리/Machine-Learning' 카테고리의 다른 글
  • Machine-Learning 용어정리 (K-means clustering)
  • Machine-Learning 용어정리 (SVM, KNN, 나이브베이즈, 의사결정나무) ver 2
  • Machin-Learning 용어정리 (로지스틱 회귀)
  • Machine - Learning 용어정리 (지도학습 - 회귀모델) ver 3
코드 유랑자 승열
코드 유랑자 승열
코드 유랑자 승열의 프로그래밍 일지를 남기는 공간입니다.
  • 코드 유랑자 승열
    승열의 프로그래밍 시네마
    코드 유랑자 승열
  • 전체
    오늘
    어제
  • 링크

    • 깃허브 보러가기
    • 링크드인 보러가기
    • 인스타그램 보러가기
    • 카테고리
      • 코딩테스트
        • BaekJoon
      • TIL and WIL
        • TIL
        • WIL
      • 주말스터디
      • 내일배움캠프
        • 사전캠프 강의 (SQL)
      • 용어정리
        • Python
        • Python-Library
        • Machine-Learning
        • Deep-Learning
        • AI 활용
        • LLM & RAG
        • Docker
        • Django
        • SQL
        • Java Script
        • etc
      • Daily 코드카타
        • SQL
        • Python 알고리즘
      • 임시저장
      • 보류
  • 태그

    word2vec
    vector db
    llm
    오블완
    template
    django
    langchain
    티스토리챌린지
    View
    RAG
  • 인기 글

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
코드 유랑자 승열
Machine-Learning 용어정리 (데이터셋)
상단으로

티스토리툴바