/ Data Science

เรียนรู้ pandas เบื้องต้น

pandas เป็น library สำหรับวิเคราะห์ข้อมูลด้วย python ที่ใช้กันอย่างแพร่หลาย โดยเวอร์ชั่นแรกออกเมื่อปี 2008 และเวอร์ชั่น 1.0 เพิ่งออกเมื่อวันที่ 29 มกราคม 2020 ที่ผ่านมา

บทความนี้จะมาสรุปคำสั่งพื้นฐานของ Pandas ที่จำเป็นต้องรู้

1. DataFrame

สร้าง DataFrame โดยกำหนดข้อมูลด้วย numpy array หรือ dictionary
สามารถกำหนด index ได้ด้วย argument ชื่อ index

200209-01-dataframe

2. read_csv

สร้าง DataFrame โดยอ่านจากไฟล์ CSV
สามารถกำหนด index ด้วย index_col
บทความนี้จะใช้ไฟล์ภูมิอากาศบนดาวอังคาร (ที่มา https://data.world/the-pudding/mars-weather) เป็นตัวอย่างสำหรับคำสั่งที่เหลือทั้งหมด

200209-02-read_csv

3. columns & dtypes

columns ใช้ดูชื่อ column ทั้งหมดใน DataFrame
dtypes ใช้สำหรับดูชนิดของข้อมูลแต่ละ column ใน DataFrame

200209-03-columns_dtypes

4. head & tail

ดูตัวอย่างข้อมูลด้วยคำสั่ง head หรือ tail โดย head ใช้สำหรับดูช่วงต้นของ DataFrame และ tail ใช้สำหรับดูช่วงท้ายของ DataFrame
สามารถระบุจำนวนตัวอย่างที่ต้องการได้ โดยถ้าไม่ระบุ คำสั่งจะแสดง 5 ตัวอย่าง

200209-04-head_tail

5. to_numpy

แปลง DataFrame เป็น NumPy array

200209-05-to_numpy

6. describe

สรุปสถิติเบื้องต้นของข้อมูลแต่ละ column ใน DataFrame เช่น ค่าเฉลี่ย ค่า standard deviation (std) ค่าต่ำสุด ค่าสูงสุด

200209-06-describe

7. index

แสดง index ของ DataFrame
ถ้าเราไม่ได้กำหนด index ตอนสร้าง DataFrame เราจะได้เลขลำดับ 0, 1, 2, 3, … เป็น index

200209-07-index

8. sort_index & sort_values

sort_index เรียงลำดับ row ตามค่าของ index
sort_values เรียงลำดับ row ตามค่าของ column ที่กำหนด

200209-08-sort_index_sort_values

9. df[ ] & df.

เลือก column ที่ต้องการตามชื่อ column โดยสามารถใส่เป็น string ใน [ ] หรือเป็นชื่อ attribute ก็ได้

200209-09-df_select_columns

10. df[ : ]

เลือกช่วงของ row ที่ต้องการ โดยใส่เป็นเลขลำดับบรรทัด หรือใส่ตาม index
ในกรณีนี้ index คือวันที่ และเรามีข้อมูลเรียงจากวันที่ใหม่กว่าไปวันที่เก่ากว่า ดังนั้นเราจึงใส่ index ของวันที่แบบถอยหลัง

200209-10-df_select_rows

11. loc

เลือก row ที่ต้องการหรือช่วงของ row ที่ต้องการตาม index
หากไม่ต้องการทุก column สามารถกำหนด column ที่ต้องการได้ด้วยชื่อ column

200209-11-loc

12. iloc

เลือก row ที่ต้องการหรือช่วงของ row ที่ต้องการตามเลขลำดับบรรทัด
หากไม่ต้องการทุก column สามารถกำหนด column ที่ต้องการได้ด้วยเลขลำดับ column

200209-12-iloc

13. df[ boolean expression ]

เลือก row ที่ต้องการตามเงื่อนไขใน boolean expression

200209-13-df_boolean_expression

14. mean, std, median, max, min

คำนวณค่าทางสถิติของแต่ละ column ด้วยคำสั่งต่างๆ เช่น
mean - ค่าเฉลี่ย
std - ค่า standard deviation
median - ค่ามัธยฐาน
min - ค่าต่ำสุด
max - ค่าสูงสุด

200209-14-basic_stat

15. groupby

จัดกลุ่มข้อมูลตาม column ที่กำหนด

200209-15-groupby

เรียนรู้ pandas เบื้องต้น
Share this

Subscribe to Code on the Hill