ในการทำงานทางด้าน Data Science ขั้นตอนแรกที่จะทุกคนจะต้องเจอน่าจะเป็นเรื่องของการทำ Exploratory Data Analysis (EDA)
ซึ่งในขั้นตอนนี้ เป็นขั้นตอนที่ต้องใช้ระยะเวลาในการทำค่อนข้างนาน และเราอาจจะพลาดบางหัวข้อในการสำรวจข้อมูลได้
วันนี้ทีม Roots จะมาแนะนำ Dataprep ซึ่งเป็น library ของ Python เพื่อช่วยให้การทำ EDA เป็นเรื่องที่ง่ายและเร็วมากยิ่งขึ้น
โดยขั้นตอนในการติดตั้ง มีดังนี้
1. ติดตั้ง Anaconda
2. Pip install dataprep ใน anaconda prompt
โดยการใช้งานจะใช้งานผ่าน jupyter notebook ในการ run

ตัวอย่างคำสั่งที่เลือกใช้งาน โดยเรียกข้อมูลที่เก็บไว้ในเครื่องชื่อ train.csv แล้วใช้คำสั่ง plot เพื่อทำ EDA จากข้อมูล Train
from dataprep.eda import plot import pandas as pd df = pd.read_csv("train.csv") plot(df)

ถ้าต้องการเทียบข้อมูลในแต่ละแถว เราก็สามารถทำได้ด้วยคำสั่ง ดังนี้
plot(df, "MSZoning", "SalePrice")
เราสามารถเรียกดูเป็นกราฟแท่งเทียน หรือเป็นกราฟเส้นก็ได้
ทั้งหมดนี้เป็นตัวอย่างในการทำ EDA ด้วย Dataprep ซึ่งจะเห็นได้ว่า เราไม่ต้อง code เยอะ และยังได้ค่าท่าสถิติที่จำเป็นเกือบทั้งหมดมาแสดง ทำให้เราสามารถทำ EDA ได้อย่างรวดเร็ว ประหยัดเวลา สุดท้ายนี้ ทาง Roots หวังว่าทุกคนจะสนุกไปกับการทำ EDA ด้วย Dataprep เจอกันใหม่บทความหน้าครับ
References [1] L. Frei, Speed Up Your Exploratory Data Analysis With Pandas-Profiling (2019), Towards Data Science [2] R. Rei, EDA Using Panda’s Profiling (2020), Towards Data Science [3] D. Bourke, A Gentle Introduction to Exploratory Data Analysis (2019), Towards Data Science