طراحی و توسعه یک سیستم ماژولار و اتوماتیک با پایتون جهت جمعآوری، فیلتر و ذخیرهسازی دادههای لابراتوارها و آزمایشگاهها از دایرکتوریهای مرجع (مانند کتاب اول).
🛠️ نیازمندیها و تکنولوژیهای استفاده شده (Tech Stack)
زبان برنامهنویسی: Python
موتور استخراج داده: Playwright (برای شبیهسازی مرورگر واقعی و رندر جاوااسکریپت)
مدیریت و تحلیل دادهها: Pandas , OpenPyxl
پایگاه داده: SQLite
محیط توسعه: Virtual Environment (venv)
📌 مراحل طی شده و معماری پروژه:
طراحی معماری ماژولار (Modular Architecture): تفکیک کامل بخشهای پروژه به ۴ ماژول مجزا شامل هسته اسکرپر، مدیریت دیتابیس، خروجی اکسل و فایل کنترلر اصلی (main.py) جهت پایداری و توسعهپذیری آسان.
طراحی پایگاه داده ضد دیتای تکراری: پیادهسازی دیتابیس SQLite با کلیدهای یکتا (Unique Key) بر روی شماره تلفنها، جهت فیلتر خودکار و جلوگیری ۱۰۰ درصدی از ورود دادههای تکراری در اسکنهای روزانه.
دور زدن سیستمهای ضد ربات (Anti-Bot Bypass): استفاده از ابزار مدرن Playwright و اتصال آن به هسته گوگل کروم سیستم، اعمال هدرهای پیشرفته مرورگر (User-Agent) و رفتارهای انسانی (اسکرول نرم و تاخیر تصادفی) جهت جلوگیری از بلاک شدن آیپي.
پیادهسازی ردیاب هوشمند زاپاس (Fallback Tracker): کدنویسی منعطف با عبارات باقاعده (Regex) و مسیرهای داینامیک CSS/XPath جهت استخراج صحیح شماره تلفنها و اطلاعات، حتی در صورت تغییر ناگهانی در قالب و کدهای HTML سایت مرجع.
اتوماسیون و خروجی هوشمند: توسعه ماژول خروجی اتوماتیک با Pandas جهت تبدیل دادههای جدید دیتابیس به فایلهای اکسل تمیز و تاریخگذاری شده به صورت روزانه.
🎯 دستاورد پروژه
موفقیت در استخراج و دپوی دیتای تمیز از سایتهای سرسخت دایرکتوری، بدون اورلود شبکه، بدون بلاک شدن آیپي و تحویل خروجی کاملاً ساختاریافته اکسل آماده برای تیمهای بازاریابی و Lead Generation.