web scraping با طعم پایتون
سلام دوستان ،
در این پست از وبلاگم میخوام شما رو کمی با web scraping اشنا کنم.
بصورت ساده شما اطلاعاتی رو از یک وبسایت استخراج کنید بهش میگن Web Scraping یا Web Extracting.
در این آموزش از پایتون ورژن ۲ و کتابخانهای به اسم lxml استفاده میکنیم.
فرض کنید شما فروشگاه واسط اینترنتی هستید که لباس میفروشید و تبدیل قیمت لازم دارید! شما نمیتونید هر لحظه و دقیقه نرخ ارز رو داخل وبسایتتون دستکاری کنید پس بهترین راه حل اینه که از یک وبسایت معتبر ارز نرخ ارز رو Scrap کنید یا استخراج کنید.
پس بریم که شروع کنیم
یه فایل مثل همیشه با پسوند .py میسازیم.
اول کاری که همیشه میکینم کتابخانه های مورد نیازمون رو به داخل برنامه import میکنیم:
from lxml import html
import requests
کتابخانه اول که مربوط به Scrap کردن هست و کتابخانه دوم هم ارسال یک درخواست به یک وبسایت اینترنتی
page = requests.get("http://www.tgju.org/currency")
ما با این خط یک درخواست به وبسایت tgju میفرستیم (وبسایت معتبر در زمینه ارز)
doc = html.fromstring(page.text)
بعد از اون تمامی متون دریافتی رو در یک متغیر به اسم doc ذخیره میکنیم
dollar = doc.xpath('//div[@class="fs-cell fs-sm-6 fs-md-5 fs-lg-6"]//*/td[@class="nf"]/text()')[0]
این خط رو حتما لازمه که با Inspect Element اشنایی داشته باشید اما بصورت کلی پترن و یا الگویی که ارز مد نظر ما قرار داره داخل همچین پترنی وجود داره.
و در نهایت متغیر dollar خودمون رو print میکنیم :
print dollar
به همین سادگی J
موفق باشید.