본문 바로가기

MachineLearning6

[kaggle] Pandas Tutorial - 6 6. Renaming and Combining Introduction 데이터는 우리가 만족하지 못하는 명명 규칙과 함게 우리에게 다가온다. 그런 경우 pandas는 위반하는 항목들의 이름을 더 나은 이름으로 바꾸는 기능들을 제공한다. 또한 DataFrame이나 Series의 데이터를 결합하는 방법도 살펴볼 수 있다. Renaming rename()함수는 인덱스 이름 이나 열의 이름을 변경할 수 있다. 예를 들어 점수를 매기도록 데이터 집합의 포인트 열을 변경할 수 있다. reviews.rename(columns={'points': 'score'}) rename() 함수는 인덱스나 열을 특정하는 파라미터를 넘겨줘서 이름을 변경한다. 여러가지 입력 형식을 지원하나 가장 자주 사용.. 2022. 5. 27.
[kaggle] Pandas Tutorial - 5 5. Data Types and Missing Values Introduction DataFrame 또는 Series내의 데이터 유형을 조사하는 방법에 대해 알아봅니다. 또한 항목을 찾고 바꾸는 방법을 배우게 됩니다. Dtypes 데이터 프레임 또는 시계열의 열에 대한 데이터 유형을 dtype이라고 합니다. dtype 속성을 사용하여 특정 열의 유형을 잡을 수 있다. 예를 들어 review DataFrame에서 가격 열의 dtype을 얻을 수 있다. reviews.price.dtype 또는 dtypes 속성은 DataFrame에 있는 모든 열의 dtype을 반환합니다. reviews.dytpes 데이터 유형은 pandas가 어떻게 데이터를 내부적으로 저장하는지에 대해 보여준다. float64는 64비트 .. 2022. 5. 27.
[kaggle] Pandas Tutorial - 4 4. Grouping and Sorting Introduction Map을 사용하면 DataFrame 또는 Series에서 전체열에 대해 한 번에 한 값씩 데이터를 변환할 수 있다. 그러나 우리는 종종 데이터를 그룹화한 다음 데이터가 속한 그룹에 특정한 작업을 수행한다. 아시 겠지만 group by 작업으로 수행을 한다. 또한 데이터를 정렬하는 방법과 더불어 DataFrame을 인덱싱하는 보다 복잡한 방법과 같으 ㄴ몇가지 추가 항목도 다룰 예정입니다. Groupwise analysis 우리가 지금까지 많이 사용한 함수는 value_counts()함수이다. 우리는 아래와 같은 코드를 작성해서 value_counts()와 동일한 동작을 하도록 할 수 있다. print(reviews.groupby('p.. 2022. 5. 27.
[kaggle] Pandas Tutorial - 3 3.Summary Functions and Maps Introduction 이때동안은 관련 데이터를 선택하는 방법을 다뤘다. 하지만 데이터는 항상 우리가 원하는 형식대로 나타나지 않는다. 때로는 데이터 포맷을 바꾸기 위해 직접 몇가지 작업을 더 해야한다. 이번에는 데이터에 적용할 수 있는 다양한 작업에 대해 설명한다. Summary functions Pandas는 데이터를 유용한 방식으로 재구성하는 많은 요약기능을 제공한다. print(reviews.points.describe()) describe() 메소드는 지정된 열의 속성에 대한 높은 수준의 요약을 생성한다. 입력의 데이터 유형에 따라 출력이 변경된다는 의미인 유형 인식이다. 위의 출력은 숫자 데이터에 대해서만 적합하여 문자열 데이터의 경우 다음과.. 2022. 5. 27.