روز 4: پانداز
Pandas: یک پکیج پایتون برای تجزیه و تحلیل و مدیریت دادهها است. این پکیج طراحی شده تا کار با دادههای رابطهای (یا جدولی) را سریع و آسان کند. این پکیج امکانات زیادی برای انجام تجزیه و تحلیل داده، تغییر داده و جمعآوری داده را فراهم میکند، همچنین ابزارهای زیادی برای تصویرسازی (عمدتاً بر پایه کتابخانه matplotlib) ارائه میدهد. اگر با R آشنا هستید، تشابههایی با دادههای R را خواهید دید.
پانداز بر پایه پکیج numpy ساخته شده است، بنابراین درک خوبی از numpy برای به راحتی کار کردن در پانداز ارزشمند است و پانداز برای یکپارچهسازی خوب با پکیجهای دیگر پایتون مانند scikit-learn و statsmodels طراحی شده است. پانداز همچنین قابلیتهای بزرگی برای کار با دادههای سری زمانی دارد و شامل مجموعه بزرگی از متدهای خاص سری زمانی است.
منابع
- صفحه اصلی پانداز یک مکان عالی برای شروع، و همچنین آموزشهای شروع به کار است. موارد مهمی که باید بدانید عبارتاند از:
- نحوه خواندن داده از یک فایل CSV (جداول با مقادیر جدا شده با ویرگول) برای ایجاد یک DataFrame.
- فیلتر کردن داده در یک DataFrame.
- محاسبه آمار خلاصه برای یک DataFrame.
- استفاده از متد groupby برای جمعآوری داده.
- ذخیره نتایج تجزیه و تحلیل در یک فایل CSV.
- تعدادی ویدئوی آموزش پانداز خوب در یوتیوب وجود دارد. در اینجا یک لیست پخش از یک سری ویدئویی که ما دوست داشتیم وجود دارد. این لیست بر اساس موضوع تقسیم شده است، بنابراین به راحتی بررسی کنید و بر روی حوزههایی که نیاز به تقویت دارید، تمرکز کنید.
گام های مهم پیش رو
دیتاست مربوط به برنامه صرفهجویی در هزینه انرژی برای کسبوکارها در شهر نیویورک را دانلود کنید (تحت گزینه “Export”، راهی برای دریافت یک فایل CSV وجود دارد). به سوالات زیر پاسخ دهید.
- چند شرکت مختلف در مجموعه داده نمایندگی شدهاند؟
- تعداد کل شغلهای ایجاد شده برای کسبوکارها در منطقه کوئینز چقدر است؟
- تعداد مختلف دامنههای ایمیل یکتا در مجموعه داده چقدر است؟
- در نظر گرفتن تنها NTAs با حداقل 5 کسبوکار فهرست شده، میانگین کل صرفهجویی و کل شغلهای ایجاد شده برای هر NTA چقدر است؟
- نتیجه سوال قبلی را به عنوان یک فایل CSV ذخیره کنید.