روز 4: پانداز

Pandas: یک پکیج پایتون برای تجزیه و تحلیل و مدیریت داده‌ها است. این پکیج طراحی شده تا کار با داده‌های رابطه‌ای (یا جدولی) را سریع و آسان کند. این پکیج امکانات زیادی برای انجام تجزیه و تحلیل داده، تغییر داده و جمع‌آوری داده را فراهم می‌کند، همچنین ابزارهای زیادی برای تصویرسازی (عمدتاً بر پایه کتابخانه matplotlib) ارائه می‌دهد. اگر با R آشنا هستید، تشابه‌هایی با داده‌های R را خواهید دید.

پانداز بر پایه پکیج numpy ساخته شده است، بنابراین درک خوبی از numpy برای به راحتی کار کردن در پانداز ارزشمند است و پانداز برای یکپارچه‌سازی خوب با پکیج‌های دیگر پایتون مانند scikit-learn و statsmodels طراحی شده است. پانداز همچنین قابلیت‌های بزرگی برای کار با داده‌های سری زمانی دارد و شامل مجموعه بزرگی از متدهای خاص سری زمانی است.

منابع

  1. صفحه اصلی پانداز یک مکان عالی برای شروع، و همچنین آموزش‌های شروع به کار است. موارد مهمی که باید بدانید عبارت‌اند از:
    • نحوه خواندن داده از یک فایل CSV (جداول با مقادیر جدا شده با ویرگول) برای ایجاد یک DataFrame.
    • فیلتر کردن داده در یک DataFrame.
    • محاسبه آمار خلاصه برای یک DataFrame.
    • استفاده از متد groupby برای جمع‌آوری داده.
    • ذخیره نتایج تجزیه و تحلیل در یک فایل CSV.
  2. تعدادی ویدئوی آموزش پانداز خوب در یوتیوب وجود دارد. در اینجا یک لیست پخش از یک سری ویدئویی که ما دوست داشتیم وجود دارد. این لیست بر اساس موضوع تقسیم شده است، بنابراین به راحتی بررسی کنید و بر روی حوزه‌هایی که نیاز به تقویت دارید، تمرکز کنید.

گام های مهم پیش رو

دیتاست مربوط به برنامه صرفه‌جویی در هزینه انرژی برای کسب‌وکارها در شهر نیویورک را دانلود کنید (تحت گزینه “Export”، راهی برای دریافت یک فایل CSV وجود دارد). به سوالات زیر پاسخ دهید.

  1. چند شرکت مختلف در مجموعه داده نمایندگی شده‌اند؟
  2. تعداد کل شغل‌های ایجاد شده برای کسب‌وکارها در منطقه کوئینز چقدر است؟
  3. تعداد مختلف دامنه‌های ایمیل یکتا در مجموعه داده چقدر است؟
  4. در نظر گرفتن تنها NTAs با حداقل 5 کسب‌وکار فهرست شده، میانگین کل صرفه‌جویی و کل شغل‌های ایجاد شده برای هر NTA چقدر است؟
  5. نتیجه سوال قبلی را به عنوان یک فایل CSV ذخیره کنید.