روز 7: HTTP، HTML و عبارات منظم

دانشمندان علم داده به طور مداوم با رابط‌های برنامه‌نویسی وب کار می‌کنند؛ ما در دوره فلوشیپ درباره آن‌ها و چگونگی استفاده از آن‌ها آموزش خواهیم داد. اما، شناختن اینکه چگونه ارتباطات در وب کار می‌کند، وقتی از رابط‌های برنامه‌نویسی (APIs) وب استفاده می‌کنید، کمک می‌کند.

یکی از وظایف معمول یک دانشمند علم داده، استخراج داده از متن یا HTML آشفته است. در طول دوره، ما درباره جستجوی وب در پایتون با Beautiful Soup صحبت خواهیم کرد، اما برای استفاده صحیح از چنین ابزاری، نیاز است که اصول اساسی HTML را درک کنید.

عبارات منظم، دنباله‌ای از کاراکترها هستند که یک الگوی جستجو را نشان می‌دهند. با شناسایی این الگوی جستجو، می‌توان عملیات پردازش متنی مانند یافتن و جایگزینی را انجام داد. عبارات منظم از طریق ماژول re در پایتون پیاده‌سازی شده‌اند. یک آموزش تعاملی آنلاین عالی برای عبارات منظم وجود دارد که به شما یاد می‌دهد چگونه از آن‌ها استفاده کنید. برای تست عبارات منظم خود، از RegEx101 استفاده کنید. این یک ابزار رفع اشکال regex رایگان است که شامل توضیحات زمان واقعی، تشخیص خطا و تجزیه و تحلیل است. (فقط مطمئن شوید که از “پایتون” به عنوان “سلیقه” در منوی سمت چپ استفاده کنید.)

منابع

  1. این آموزش کوتاه و این دیگر آموزش راجع به چگونگی عملکرد پروتکل انتقال هایپرمتن (HTTP) را بخوانید.
  2. آموزش HTML وب‌گاه W3 را مرور کنید. به خصوص بخش‌های “مقدمه HTML”، “عناصر HTML” و “ویژگی‌های HTML” را مطالعه کنید.

گام های مهم پیش رو

  1. حداقل هشت درس اول در RegexOne را یاد بگیرید. اگر زمان بیشتری دارید، هر چه تعداد بیشتری از درس‌های باقی‌مانده را انجام دهید.