ابزارهای پایه در پردازش رایانهای زبان
رایانه و زبان فارسی
ابزارهای پایه در پردازش رایانهای زبان: بازشناسی موجودیتهای اسمی (NER)
دکتر هادی ویسی
چندسال پیش تصویری از یک متن ترجمه شده از فارسی به انگلیسی به صورت لطیفه در فضای مجازی دست به دست میشد که در آن در وبسایت یک نهاد رسمی «دکتر حسابی» را «Dr Arithmatic» یا عنوانی مشابه ترجمه کرده بود! این کار که در فرایند ترجمه ماشینی رخ میدهد، به این دلیل است که «اسامی خاص» نباید به معنای تحت اللفظی آن ترجمه شود. این مساله در مورد اسامی افراد مانند «زیبا» و «صادق»، اسامی سازمانها مانند «روزنامه همشهری» یا اسم مکانها مانند «پل حافظ» هم صدق میکند. به فرایند شناسایی اسامی خاص در یک متن، NER گفته میشود که علاوه بر ترجمه ماشینی، در کاربردهای دیگر پردازش متن مانند تحلیل احساس، دستهبندی محتوا، درک زبان، پرسش و پاسخ، بینام کردن خودکار محتواها (مانند نامهها) و خلاصهسازی برای رفع ابهام مورد نیاز است.
تشخیص اسامی خاص در متن، در زبانهایی مانند انگلیسی دارای سرنخهای نوشتاری مانند بزرگ بودن حرف اول کلمه است که با روشهای مبتنی بر قاعده تا حدی این کار قابل انجام است، هرچند امروزه، NER مانند سایر مسائل مدلسازی دنبالهای، مانند برچسبزنی اجزای کلام، با روشهای دادهمحور آماری (مانند HMM و RBF) و شبکه عصبی عمیق (به ویژه شبکههای RNN و مبدلها) انجام میشود.
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبانِ فارسی» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکترهادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا (دانشآموختهٔ رشتهٔ دکترای هوش مصنوعی از دانشگاه صنعتی شریف و عضو هیأت علمی دانشکده علوم و فنون نوین دانشگاه تهران)، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.
نظرات (۰)