ابزارهای پایه در پردازش رایانه‌ای زبان

۱۸ دی ۰۰ ، ۲۳:۵۹ نويسنده: رسانه زبان

رایانه و زبان فارسی
ابزارهای پایه در پردازش رایانه‌ای زبان: بازشناسی موجودیت‌های اسمی (NER)
دکتر هادی ویسی

چندسال پیش تصویری از یک متن ترجمه شده از فارسی به انگلیسی به صورت لطیفه در فضای مجازی دست به دست می‌شد که در آن در وب‌سایت یک نهاد رسمی «دکتر حسابی» را «Dr Arithmatic» یا عنوانی مشابه ترجمه کرده بود! این کار که در فرایند ترجمه ماشینی رخ می‌دهد، به این دلیل است که «اسامی خاص» نباید به معنای تحت اللفظی آن ترجمه شود. این مساله در مورد اسامی افراد مانند «زیبا» و «صادق»، اسامی سازمان‌ها مانند «روزنامه همشهری» یا اسم مکان‌ها مانند «پل حافظ» هم صدق می‌کند. به فرایند شناسایی اسامی خاص در یک متن، NER گفته می‌شود که علاوه بر ترجمه ماشینی، در کاربردهای دیگر پردازش متن مانند تحلیل احساس، دسته‌بندی محتوا، درک زبان، پرسش و پاسخ، بی‌نام کردن خودکار محتواها (مانند نامه‌ها) و خلاصه‌سازی برای رفع ابهام مورد نیاز است.
تشخیص اسامی خاص در متن، در زبان‌هایی مانند انگلیسی دارای سرنخ‌های نوشتاری مانند بزرگ بودن حرف اول کلمه است که با روش‌های مبتنی بر قاعده تا حدی این کار قابل انجام است، هرچند امروزه، NER مانند سایر مسائل مدل‌سازی دنباله‌ای، مانند برچسب‌زنی اجزای کلام، با روش‌های داده‌محور آماری (مانند HMM و RBF) و شبکه عصبی عمیق (به ویژه شبکه‌های RNN و مبدل‌ها) انجام می‌شود.
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا (دانش‌آموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.