روز 7: HTTP، HTML و عبارات منظم
دانشمندان علم داده به طور مداوم با رابطهای برنامهنویسی وب کار میکنند؛ ما در دوره فلوشیپ درباره آنها و چگونگی استفاده از آنها آموزش خواهیم داد. اما، شناختن اینکه چگونه ارتباطات در وب کار میکند، وقتی از رابطهای برنامهنویسی (APIs) وب استفاده میکنید، کمک میکند.
یکی از وظایف معمول یک دانشمند علم داده، استخراج داده از متن یا HTML آشفته است. در طول دوره، ما درباره جستجوی وب در پایتون با Beautiful Soup صحبت خواهیم کرد، اما برای استفاده صحیح از چنین ابزاری، نیاز است که اصول اساسی HTML را درک کنید.
عبارات منظم، دنبالهای از کاراکترها هستند که یک الگوی جستجو را نشان میدهند. با شناسایی این الگوی جستجو، میتوان عملیات پردازش متنی مانند یافتن و جایگزینی را انجام داد. عبارات منظم از طریق ماژول re در پایتون پیادهسازی شدهاند. یک آموزش تعاملی آنلاین عالی برای عبارات منظم وجود دارد که به شما یاد میدهد چگونه از آنها استفاده کنید. برای تست عبارات منظم خود، از RegEx101 استفاده کنید. این یک ابزار رفع اشکال regex رایگان است که شامل توضیحات زمان واقعی، تشخیص خطا و تجزیه و تحلیل است. (فقط مطمئن شوید که از “پایتون” به عنوان “سلیقه” در منوی سمت چپ استفاده کنید.)
منابع
- این آموزش کوتاه و این دیگر آموزش راجع به چگونگی عملکرد پروتکل انتقال هایپرمتن (HTTP) را بخوانید.
- آموزش HTML وبگاه W3 را مرور کنید. به خصوص بخشهای “مقدمه HTML”، “عناصر HTML” و “ویژگیهای HTML” را مطالعه کنید.
گام های مهم پیش رو
- حداقل هشت درس اول در RegexOne را یاد بگیرید. اگر زمان بیشتری دارید، هر چه تعداد بیشتری از درسهای باقیمانده را انجام دهید.