طراحی و پیادهسازی یک موتور پردازشگر متن به منظور تحلیل ساختاری، لغوی و گرامری متون فارسی. این سیستم دادههای خام متنی را دریافت کرده و با عبور دادن آنها از لایههای مختلف پالایش (شامل استانداردسازی، تقطیع، تشخیص نقشهای دستوری و تحلیل مورفولوژیک)، دادهها را به ساختاری یکپارچه و ماشینفهم تبدیل میکند تا به عنوان خوراک اطلاعاتی در مدلهای پیشرفته یادگیری ماشین و هوش مصنوعی مورد استفاده قرار گیرند. در این پروژه، یک پکیج پردازش متن فارسی را پیادهسازی کردم که قادر است مراحل مختلف تحلیل زبانی را بر روی ورودی متنی انجام دهد. قابلیتهای اصلی این نمونهکار عبارتند از:
استانداردسازی و پالایش دادهها (Text Normalization): طراحی مکانیزمی برای پاکسازی دادههای نویزدار، یکسانسازی کاراکترهای پیچیده زبان فارسی و رفع ناهنجاریهای تایپی جهت رسیدن به یک پیکره متنی (Corpus) یکپارچه.
تحلیل لغوی و تقطیع معنایی (Lexical Tokenization): پیادهسازی الگوریتمهای جداسازی هوشمند برای تجزیه بندها و جملات به واحدهای مستقل معنایی (توکنها) با در نظر گرفتن پیچیدگیهای فاصلهگذاری در زبان فارسی.
تحلیل گرامری و برچسبگذاری (POS Tagging): بهکارگیری مدلهای آماری/زبانشناختی برای درک بافتار جمله و تخصیص دقیق نقشهای دستوری (مانند اسم، فعل، صفت) به هر واحد لغوی.
تحلیل مورفولوژیک و ریشهیابی (Stemming & Lemmatization): توسعه منطق استخراج ریشه و شکل پایه کلمات از طریق حذف وندها و شناسایی ساختارهای صرفی. این فرآیند ابعاد دادهها را به شدت کاهش داده و دقت مدلهای هوش مصنوعی (نظیر موتورهای جستجو یا تحلیل احساسات) را در مراحل بعدی بهینهسازی میکند.
این ابزار روی متنهای فارسی آزمایش شده و میتواند برای تحلیل محتوا، پرسش و پاسخ خودکار، خلاصهسازی و سایر کاربردهای پردازش متون به کار رود. هدف از این پروژه، آشنایی عملی با مراحل تحلیل زبانی و چالشهای خاص زبان فارسی در حوزه پردازش زبان طبیعی بوده است.