본문 바로가기
프랑의 데일리 공부/Coding

파이썬으로 엑셀파일 다루기(xlsx, pandas)

by ღ프랑ღ 2023. 7. 12.

 

파이썬으로 데이터를 다루다보면 엑셀파일들을 다루게 되는 경우가 많습니다. (csv, xlsx.. 등등) 

저는 주로 csv 파일을 활용하고 있는데, xlsx를 다룰때가 되면 매번 헷갈리더라구요. 

그래서 다시한 번 정리할 겸 xlsx파일을 읽는 방법에 대해 먼저 확인해보려고 합니다 ! 

 

1. 라이브러리 설치

pandas로 read_excel을 활용하면 xlsx파일을 읽어올 수 있는데, 아래와 같은 에러가 발생하더라고요. 

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

이 문제는 라이브러리 설치로 간단히 해결 가능합니다! (pip install openpyxl) 
주피터 노트북에서 실행한다면 pip 앞에 !를 붙여서 사용하시면 되요~! 

 

2. xlsx파일 불러오기

저는 최근 학습에 사용하고있는 오픈데이터 셋의 확장자가 xslx라서 이 데이터를 활용해서 테스트를 진행해봤어요! 

import pandas as pd

file_name = r'./Radiology manual annotations.xlsx'
df = pd.read_excel(file_name)
df.head(2)

 

그런데 여러개의 컬럼을 가지고있음에도 불구하고 첫 번째 시트의 데이터만 보여주더라구요..?

그래서 희망하는 셀을 볼 수 있도록 설정을 변경해주었습니다! 

 

3. xlsx파일의 원하는 sheet 불러오기

기존에 사용한 명령어에 sheet_name 옵션만 추가해도 원하는 시트를 확인할 수 있습니다~!

import pandas as pd

file_name = r'./Radiology manual annotations.xlsx'
df = pd.read_excel(file_name, sheet_name='all')

df.head(2)

 

이제는 잊지않고 xlsx 파일을 잘 읽어올 수 있겠죠? ㅎ_ㅎ