Pandas DataFrame은 표 형식의 데이터를 다루기 위한 파이썬 라이브러리입니다. 이를 통해 데이터를 쉽게 조작하고 분석할 수 있습니다. DataFrame은 행과 열로 이루어진 2차원 데이터 구조로, 각각의 열은 하나의 변수를 나타내며 각각의 행은 하나의 관측값을 나타냅니다. DataFrame을 잘 활용하면 데이터 처리 작업을 빠르고 효율적으로 수행할 수 있습니다. 아래 글에서 자세하게 알아봅시다.
Pandas DataFrame이란?
Pandas DataFrame은 파이썬에서 표 형식의 데이터를 다루기 위해 사용되는 데이터 구조입니다. DataFrame은 R의 데이터프레임을 모델로 하여 구현되었으며, 행과 열로 이루어진 2차원 데이터를 다루기 위한 용이한 방법을 제공합니다. 각각의 열은 하나의 변수를 나타내며, 각각의 행은 하나의 관측값을 나타냅니다.
DataFrame 생성하기
DataFrame을 생성하는 가장 간단한 방법은 파이썬 딕셔너리를 사용하는 것입니다. 딕셔너리의 각 키는 DataFrame의 열 이름이 되고, 각 값은 해당 열의 데이터가 됩니다. 예를 들어, 다음과 같이 딕셔너리를 이용해 DataFrame을 생성할 수 있습니다.
“`python
import pandas as pd
data = {‘name’: [‘John’, ‘Emma’, ‘Sam’],
‘age’: [25, 30, 35],
‘city’: [‘New York’, ‘Paris’, ‘London’]}
df = pd.DataFrame(data)
“`
위의 코드를 실행하면 다음과 같은 DataFrame이 생성됩니다.
“`
name age city
0 John 25 New York
1 Emma 30 Paris
2 Sam 35 London
“`
또한, 파일로부터 데이터를 읽어와 DataFrame을 생성할 수도 있습니다. 데이터 파일의 형식에는 CSV, Excel, SQL, JSON 등이 포함될 수 있으며, Pandas는 이러한 다양한 파일 형식을 지원합니다. 예를 들어, CSV 파일을 읽어와 DataFrame을 생성하는 방법은 다음과 같습니다.
“`python
import pandas as pd
df = pd.read_csv(‘data.csv’)
“`
위의 코드는 data.csv 파일을 읽어와 DataFrame을 생성합니다.
DataFrame 다루기
DataFrame을 다루기 위한 다양한 기능과 메서드가 제공됩니다. DataFrame의 크기를 확인하는 방법은 shape 속성을 사용하는 것입니다. 예를 들어, 다음의 코드는 DataFrame의 행과 열의 개수를 출력합니다.
“`python
import pandas as pd
df = pd.read_csv(‘data.csv’)
print(df.shape)
“`
또한, DataFrame의 처음 몇 개의 행을 확인하고 싶을 때는 head() 메서드를 사용할 수 있습니다. head() 메서드의 기본값은 5이며, 괄호 안에 숫자를 지정하여 원하는 개수만큼의 행을 출력할 수 있습니다.
“`python
import pandas as pd
df = pd.read_csv(‘data.csv’)
print(df.head())
“`
데이터의 간단한 통계 정보를 확인하고 싶을 때는 describe() 메서드를 사용할 수 있습니다. describe() 메서드는 평균, 최솟값, 최댓값, 표준편차 및 사분위 수 등의 정보를 보여줍니다.
“`python
import pandas as pd
df = pd.read_csv(‘data.csv’)
print(df.describe())
“`
DataFrame에서 열을 선택하고 조작하는 방법에는 다음과 같은 등장합니다. 원하는 열을 지정하는 방법은 열의 이름을 직접 사용하거나, loc[], iloc[] 속성을 사용하는 것입니다. 예를 들어, 다음의 코드는 ‘age’ 열의 데이터를 출력합니다.
“`python
import pandas as pd
df = pd.read_csv(‘data.csv’)
print(df[‘age’]) # 열의 이름을 직접 사용하는 방법
print(df.loc[:, ‘age’]) # loc[] 속성을 사용하는 방법
print(df.iloc[:, 1]) # iloc[] 속성을 사용하는 방법
“`
DataFrame에서 조건에 따라 행을 선택하기 위해서는 조건을 사용한 인덱싱을 수행하면 됩니다. 예제로, ‘age’ 열이 30 이상인 행만 선택하고 싶을 때는 다음과 같이 코드를 작성할 수 있습니다.
“`python
import pandas as pd
df = pd.read_csv(‘data.csv’)
print(df[df[‘age’] >= 30])
“`
이와 같이 Pandas DataFrame을 사용하여 데이터를 다룰 수 있습니다. DataFrame을 잘 활용하면 데이터 처리 작업을 효율적으로 수행할 수 있으므로, 데이터 분석에 유용한 도구입니다.
마치며
이상으로 Pandas DataFrame에 대해 알아보았습니다. DataFrame은 파이썬에서 데이터를 다루는 데 유용한 도구로, 행과 열로 이루어진 표 형식의 데이터를 다룰 수 있습니다. DataFrame을 생성하고 다양한 연산을 수행하는 방법을 알아보았으며, 데이터 처리 작업을 효율적으로 수행하기 위해 DataFrame을 잘 활용하는 방법도 알아보았습니다. 이러한 DataFrame을 잘 다루면 데이터 분석 작업을 보다 쉽게 수행할 수 있으며, 데이터 관련 업무에서 많은 도움이 될 것입니다.
추가로 알면 도움되는 정보
1. DataFrame에서 특정 열의 데이터를 선택할 때 loc[] 속성 또는 iloc[] 속성을 사용하면 행 또는 열을 더욱 세밀하게 선택할 수 있습니다.
2. DataFrame의 특정 행이나 열을 삭제하려면 drop() 메서드를 사용합니다.
3. DataFrame에 새로운 열을 추가하려면 직접 열을 지정하여 값을 할당하거나, assign() 메서드를 사용할 수 있습니다.
4. DataFrame의 데이터를 정렬하려면 sort_values() 메서드를 사용합니다.
5. DataFrame에서 데이터를 그룹화하고 집계하기 위해 groupby() 메서드를 사용할 수 있습니다.
놓칠 수 있는 내용 정리
이번 파이썬 파트에서는 Pandas DataFrame에 대해 알아보았습니다. DataFrame은 파이썬에서 표 형식의 데이터를 다루는 데 유용한 도구로, 데이터 분석 작업을 효율적으로 수행할 수 있습니다. DataFrame을 생성하고 데이터를 조회하고 조작하는 방법에 대해 알아보았으며, 이를 통해 데이터 처리 작업을 보다 편리하게 수행할 수 있을 것입니다. 하지만 DataFrame을 다루기 위해서는 여러 메서드와 기능을 숙지해야 하기 때문에, 따로 학습해보시길 권장드립니다.