1.Creating, Reading and Writing
pandas를 사용하려면 일반적으로 다음 줄의 코드 사용.
import pandas as pdCreating Data
pandas에는 DataFrame 과 Series라는 두가지 핵심 개체가 있다.
DataFrame
데이터 프레임은 테이블이다. 개형 항목의 배열이 포함되어 있으며, 각 항목에는 특정 값이 있다. 각 항목은 행과 열에 해당한다.
import pandas as pd
test =pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
print(test)
![Untitled]
데이터 프레임의 값은 정수로 한정되지 않으며 문자열로도 가능하다.
import pandas as pd
test2=pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']});
print(test2)
우리는 pd.DataFrame()를 DataFrame의 객체를 생성하는 생성자로 사용하고 있다. 선언하기 위한 구문은 키가 열이고 값이 항목 목록인 사전이다.
이 방법이 새로운 DataFrame을 구성하는 표준 방식이다.
pd.DataFrame()
:새로운 DataFrame을 구성하는 표준 방식.
:새이름을 선언하는 구문은 키가 열이름이고 값이 항목 목록.
데이터 프레임의 인덱스를 살펴보면 0,1... 와 같은 오름차순 카운터만 사용이 되고 있다. 우리는 이것을 직접 할당해서 사용할 수 있다.
test3=pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
'Sue': ['Pretty good.', 'Bland.']},
index=['Product A', 'Product B'])
print(test3)
Series
DataFrame이 테이블이면 Series는 리스트이다. 실제로 목록만 사용하여 만들 수 있다.
test4=pd.Series([1,2,3,4,5])
print(test4)
Series는 본질적으로 Data Frame의 단일 열. 따라서 인덱스 매개변수를 사용하여 열 값을 시리즈에 할당 할 수 있다.
그러나 Series에는 열 이름이 없으며 하나의 전체 이름만 있다.
test5=pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')
print(test5)
Series와 DataFrame은 밀접하게 관련되어 있다.
DataFrame은 실제로 Series가 결합된 것으로 생각하면 유용하다.
Reading data files
대부분의 경우 우리는 이미 존재하는 데이터로 작업을 한다.
데이터는 다양한 형식으로 저장할 수 있다. 그중 단연코 가장 기본적인 것이 CSV파일이다.
CSV파일은 쉼표로 구분된 값의 테이블이다.

이제 CSV파일을 DataFrame으로 읽어보겠다.
pd.read_csv()함수를 사용하여 데이터를 데이터 프레임으로 읽는다.
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv")shape 속성을 사용하여 DataFrame의 크기를 확인할 수 있다.
wine_reviews.shape
DataFrame에는 약 13만개의 레코드가 14개의 열에 걸쳐 분할되어 있다. 처음 다섯 행을 잡는 head()를 사용하여 결과 데이터 프레임의 내용을 검사할 수 있다.
wine_reviews.head()
pd.read_csv()함수는 사용자가 지정할 수 있는 30개 이상의 옵션을 함께 제공한다. 예를 들어 csv파일에 기본 제공되는 인덱스가 있다. 이 인덱스는 pandas가 자동으로 선택하지 않는다. pandas가 해당 열을 사용하도록 하기 위해 index_col을 지정할 수 있다.
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()
Exercise
1.

fruits = ____
# Check your answer
q1.check()
fruits//answer
fruits = pd.DataFrame({'Apples': [30], 'Bananas': [21]})2.

# Your code goes here. Create a dataframe matching the above diagram and assign it to the variable fruit_sales.
fruit_sales = ____
# Check your answer
q2.check()
fruit_sales//answer
fruit_sales = pd.DataFrame({'Apples': [35, 41], 'Bananas': [21, 34]}, index=['2017 Sales', '2018 Sales'])3.

ingredients = ____
# Check your answer
q3.check()
ingredients//answer
ingredients=pd.Series(['4 cups', '1 cup', '2 large', '1 can'], index=['Flour', 'Milk', 'Eggs', 'Spam'], name='Dinner')4.

reviews = ____
# Check your answer
q4.check()
reviews//answer
reviews=pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv", index_col=0)5.
animals = pd.DataFrame({'Cows': [12, 20], 'Goats': [22, 19]}, index=['Year 1', 'Year 2'])
animals# Your code goes here
# Check your answer
q5.check()//answer
animals.to_csv("cows_and_goats.csv")'MachineLearning' 카테고리의 다른 글
| [kaggle] Pandas Tutorial - 6 (0) | 2022.05.27 |
|---|---|
| [kaggle] Pandas Tutorial - 5 (0) | 2022.05.27 |
| [kaggle] Pandas Tutorial - 4 (0) | 2022.05.27 |
| [kaggle] Pandas Tutorial - 3 (0) | 2022.05.27 |
| [kaggle] Pandas Tutorial - 2 (0) | 2022.05.27 |