PolyglotVision OCR یک اپلیکیشن وب چندسکویی و آماده برای محیط عملیاتی است که قابلیت تشخیص نوری کاراکتر (OCR) هوشمند با شناسایی خودکار زبان را فراهم میکند. این سیستم که با زبان Go مدرن و با استفاده از Kreuzberg FFI ساخته شده، بهصورت یکپارچه متن را از فرمتهای متنوع اسناد شامل تصاویر، PDF و اسناد Word استخراج میکند و بهطور ویژه برای محتوای چندزبانه شامل فارسی و انگلیسی بهینهسازی شده است.
بکاند:
Go 1.25.1 - بکاند با عملکرد بالا و پردازش همزمان
Kreuzberg FFI v4.9.8 - بایندینگهای موتور OCR بومی (Tesseract + ONNX Runtime)
Extractous - فریمورک استخراج اسناد یونیورسال
CGO - یکپارچهسازی بومی C/FFI برای سازگاری چندسکویی
موتور OCR:
Tesseract OCR - موتور تشخیص متن متنباز با لایسنس Apache 2.0
ONNX Runtime - موتور استنتاج هوش مصنوعی مایکروسافت برای تشخیص مبتنی بر ML
قالبهای تطبیقی - طبقهبندی از پیش تطبیقیافته برای دقت بالاتر
مدلهای زبان N-gram - پیشبینی متن مبتنی بر زمینه
فرانتاند:
Vanilla JavaScript - پردازش سبک سمت کلاینت
HTML5/CSS3 - طراحی مدرن واکنشگرا با رابط کاربری گرادیانت
Go Templates - رندر سمت سرور با بایندینگ داده پویا
کتابخانههای بومی (چندسکویی):
Windows AMD64 (DLL + کتابخانههای استاتیک)
Linux AMD64 (اشیای اشتراکی .so)
macOS Intel و Apple Silicon (کتابخانههای .dylib)
ویژگیهای کلیدی
✅ شناسایی خودکار زبان - بدون نیاز به انتخاب دستی زبان
✅ پشتیبانی از فرمتهای متعدد - تصاویر (PNG/JPG/GIF/BMP)، PDF، DOC/DOCX، RTF
✅ بهینهسازی دوزبانه - انگلیسی + فارسی با tessdata بومی
✅ چندسکویی - یک کدبیس برای Windows، Linux، macOS
✅ آماده محیط عملیاتی - مدیریت خطا، لاگبرداری، کاهش نرم خطاها
✅ رابط کاربری مدرن - طراحی واکنشگرا با بازخورد آپلود بلادرنگ
✅ بدون وابستگی خارجی - باینریهای بومی خودکفا، بدون نیاز به نصب اضافی