یک توسعه‌دهنده

یک توسعه دهنده که بیشتر از توسعه،‌ فیلم می‌بینه و کتاب می‌خونه :)

web scraping با طعم پایتون

سه شنبه, ۱۷ بهمن ۱۳۹۶، ۰۳:۱۹ ب.ظ

سلام دوستان ،

در این پست از وب‌لاگم میخوام شما رو کمی با web scraping اشنا کنم.

Web Scraping چیه؟

بصورت ساده شما اطلاعاتی رو از یک وب‌سایت استخراج کنید بهش میگن Web Scraping یا Web Extracting.

در این آموزش از پایتون ورژن ۲ و کتابخانه‌ای به اسم lxml استفاده میکنیم.

فرض کنید شما فروشگاه واسط اینترنتی هستید که لباس می‌فروشید و تبدیل قیمت لازم دارید! شما نمی‌تونید هر لحظه و دقیقه نرخ ارز رو داخل وب‌سایتتون دستکاری کنید پس بهترین راه حل اینه که از یک وب‌سایت معتبر ارز نرخ ارز رو Scrap کنید یا استخراج کنید.

 

پس بریم که شروع کنیم

یه فایل مثل همیشه با پسوند .py می‌سازیم.

اول کاری که همیشه میکینم کتابخانه های مورد نیازمون رو به داخل برنامه import میکنیم:

from lxml import html

import requests

کتابخانه اول که مربوط به Scrap کردن هست و کتابخانه دوم هم ارسال یک درخواست به یک وب‌سایت اینترنتی

page = requests.get("http://www.tgju.org/currency")

ما با این خط یک درخواست به وب‌سایت tgju می‌فرستیم (وب‌سایت معتبر در زمینه ارز)

doc = html.fromstring(page.text)

بعد از اون تمامی متون دریافتی رو در یک متغیر به اسم doc ذخیره میکنیم

dollar = doc.xpath('//div[@class="fs-cell fs-sm-6 fs-md-5 fs-lg-6"]//*/td[@class="nf"]/text()')[0]

این خط رو حتما لازمه که با Inspect Element اشنایی داشته باشید اما بصورت کلی پترن و یا الگویی که ارز مد نظر ما قرار داره داخل همچین پترنی وجود داره.

و در نهایت متغیر dollar خودمون رو print میکنیم :

print dollar

به همین سادگی J

 

موفق باشید.

نظرات (۰)

هیچ نظری هنوز ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی

تمام حقوق مادی و معنوی این وبلاگ متعلق به وبلاگ سرزمین برنامه نویسی بوده و هر گونه کپی بردای بدون ذکر منبع غیرمجاز و از نظر ما حرام است