본 글은 pandas 라이브러리를 활용하는 데에 있어 여러 개의 데이터를 하나로 통합하는 방법을 설명하기 위해 작성되었습니다. 데이터를 통합하는 방법으로는 여러 가지가 있는데 이번에 다루어 볼 내용은 concat, join, merge입니다. 우선 설명하기에 앞서, 예시로 두 개의 데이터 프레임을 작성하도록 하겠습니다. >>> import pandas as pd >>> df1 = pd.DataFrame({ 'Class1' : [95, 92, 98, 100], 'Class2' : [91, 93, 97, 99] }) >>> df2 = pd.DataFrame({ 'Class1' : [87, 89], 'Class2' : [85, 90] }) d1 출력값: d2 출력값: 1. concat pandas 라이브러리의..
본 글은 파이썬 내 matplotlib 라이브러리 사용 중 그래프에 텍스트를 삽입하기 위한 방법을 설명하기 위해 작성되었습니다. matplotlib을 활용하여 그래프를 출력할 때, 아래와 같이 그래프 위에 텍스트를 삽입해 보도록 하겠습니다. 우선 아래와 같이 임의의 월별 판매 수량의 데이터를 가지고 구현하도록 하겠습니다. >>> import calendar >>> month_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12] >>> sold_list = [300, 400, 550, 900, 600, 960, 900, 910, 800, 700, 550, 450] >>> fig, ax = plt.subplots() >>> barcharts = ax.bar(month_list,..
본 글은 파이썬 내 pandas 라이브러리를 활용하여 DataFrame을 다룰 때 필요한 .loc()과 .iloc() 각각의 특징과 차이점을 설명하고자 작성되었습니다. 우선, 설명을 위해서 seaborn을 활용하여 예시의 데이터(iris)를 가져오도록 하겠습니다. >>> import seaborn as sns >>> iris = sns.load_dataset('iris') >>> iris.head() 1. loc loc은 레이블(Label)을 기반으로 데이터를 선택하는 메서드입니다. 행과 열의 이름(Label)을 사용하여 데이터에 접근합니다. 즉, 행과 열의 이름을 명시적으로 지정하여 데이터를 선택합니다. # 열 이름이 'species'인 데이터 중 'virginica'를 가진 값 선택 >>> iris...
본 글은 pandas 라이브러리 내 날짜를 자동으로 생성할 수 있는 date_range() 함수를 설명하기 위해 작성되었습니다. 데이터 안 index에 날짜를 일일이 기입하는 대신 pandas의 date_range()를 활용하면 값이 많을 때 편리합니다. date_range()는 하기와 같이 사용하면 됩니다. >>> pd.date_range(start='날짜', end='날짜', freq='주기') 예시를 들어 설명해 보겠습니다. >>> pd.date_range(start='2024/01/01', end='2024/01/07') DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04', '2024-01-05', '2024-01-06', ..
시퀀스 자료형이란? 시퀀스 자료형(sequence types)이란 값이 연속적으로 이어져 있는 자료형을 말합니다. 시퀀스 자료형은 공통적인 동작과 기능을 제공한다는 점이 가장 큰 특징이라고 할 수 있습니다. 리스트 [1, 2, 3, 4, 5] [1, 2, 3, 4, 5] 튜플 (1, 2, 3, 4, 5) (1, 2, 3, 4, 5) range range(5) 0, 1, 2, 3, 4 문자열 'Hello' H e l l o 위와 같이 시퀀스 자료형에는 리스트, 튜플, range, 문자열이 있으며, (bytes, bytearray) 또한 이에 해당됩니다. 시퀀스 자료형으로 만든 객체를 시퀀스 객체라고 하며, 객체 각각의 값을 요소(element)라고 합니다. 시퀀스 객체 내 특정 값 확인 시퀀스 객체 내에 ..