web scraping با طعم پایتون :: یک توسعه‌دهنده

web scraping با طعم پایتون

سه شنبه, ۱۷ بهمن ۱۳۹۶، ۰۳:۱۹ ب.ظ

سلام دوستان ،

در این پست از وب‌لاگم میخوام شما رو کمی با web scraping اشنا کنم.

بصورت ساده شما اطلاعاتی رو از یک وب‌سایت استخراج کنید بهش میگن Web Scraping یا Web Extracting.

در این آموزش از پایتون ورژن ۲ و کتابخانه‌ای به اسم lxml استفاده میکنیم.

فرض کنید شما فروشگاه واسط اینترنتی هستید که لباس می‌فروشید و تبدیل قیمت لازم دارید! شما نمی‌تونید هر لحظه و دقیقه نرخ ارز رو داخل وب‌سایتتون دستکاری کنید پس بهترین راه حل اینه که از یک وب‌سایت معتبر ارز نرخ ارز رو Scrap کنید یا استخراج کنید.

پس بریم که شروع کنیم

یه فایل مثل همیشه با پسوند .py می‌سازیم.

اول کاری که همیشه میکینم کتابخانه های مورد نیازمون رو به داخل برنامه import میکنیم:

from lxml import html

import requests

کتابخانه اول که مربوط به Scrap کردن هست و کتابخانه دوم هم ارسال یک درخواست به یک وب‌سایت اینترنتی

page = requests.get("http://www.tgju.org/currency")

ما با این خط یک درخواست به وب‌سایت tgju می‌فرستیم (وب‌سایت معتبر در زمینه ارز)

doc = html.fromstring(page.text)

بعد از اون تمامی متون دریافتی رو در یک متغیر به اسم doc ذخیره میکنیم

dollar = doc.xpath('//div[@class="fs-cell fs-sm-6 fs-md-5 fs-lg-6"]//*/td[@class="nf"]/text()')[0]

این خط رو حتما لازمه که با Inspect Element اشنایی داشته باشید اما بصورت کلی پترن و یا الگویی که ارز مد نظر ما قرار داره داخل همچین پترنی وجود داره.

و در نهایت متغیر dollar خودمون رو print میکنیم :

print dollar

به همین سادگی J

موفق باشید.

۰ ۰
۹۶/۱۱/۱۷

liniolon

یک توسعه‌دهنده

یک توسعه‌دهنده

یک توسعه دهنده که بیشتر از توسعه،‌ فیلم می‌بینه و کتاب می‌خونه :)

تلگرام

برنامه‌نویسی

گنو/لینوکس

متفرقه

فیلم و سینما

موسیقی

کتاب و ادبیات

بازی

web scraping با طعم پایتون

lxml

lxml python

web scraping

web scraping with python

آموزش lxml

آموزش وب اسکرپت

آموزش وب اسکرپت با پایتون

نظرات (۰)