Қазақ тілінің болашағы – жасанды интеллект саласында
Қазақ тілінің болашағы – жасанды интеллект саласында
Тіл тек адамзаттың коммуникация құралы болған күн – тарих қойнауында, енді темір де адамша сөйлеуді үйрене бастады. Жасанды интеллект өміріміздің түрлі аспектілеріне сыналап еніп, қарым-қатынас пен байланыс тәсілін өзгертіп жатыр. Алгоритмдер мен лингвистиканың тоғысуы тіл мен жасанды интеллект арасындағы күрделі байланысты бекіте түсуде. Қазақ тілі де көштен қалмай жаңа дәуірге ақырындап қадам басып барады.
Жақында Kazakh Named Entity Recognition атты қазақша аудионы мәтінге айналдыратын жасанды интеллектке негізделген қосымша шықты. Бұған дейін, керісінше мәтінді оқып беретін функция қолданысқа енген еді. Жобаларды Назарбаев университеті жанындағы Жасанды интеллект пен ақылды жүйелер институтының ғалымдары әзірлеген. Осы орайда институттың ғылыми қызметкері, «Қазақ тілінің сөйлеу корпусы» жобасы авторларының бірі Рүстем Ешпановпен сұхбаттастық. «Қолданбалы лингвистика және екінші тілді меңгеру» мамандығы бойынша Оксфорд университетін үздік тәмамдаған ғылым магистрімен жасанды интеллект, IT саласындағы қазақ тілінің болашағы, тілді цифрлық технологияларға бейімдеуде тілдің қолданыс аясына әсері туралы әңгіме өрбіттік.
– Айтқан сөзді айнытпай жазып беретін сапалы қосымшаның керек екені бұрыннан сезілетін, себебі ағылшын, орыс тілдерінде мұндай қосымшалар көптен бері қолданыста жүр. Шатаспасам, бұған дейін де осы секілді жобалар болды, дегенмен Kazakh Named Entity Recognition жобасы үдеден шығып отыр. Жобаны әзірлеуге не түрткі болды? Жұмыс кезінде тіл жағынан қандай да бір қиындықтар болды ма?
– Иә, Kazakh Named Entity Recognition жобасына тоқталар болсақ, қазақ тіліндегі атаулы мәндерді анықтауда (АМА) біз алғашқы зерттеушілер емеспіз. Бұған дейін елімізде басқа ғылыми топтар мен зерттеу ұйымдары табиғи тілді өңдеудің бұл түріне өз күш-жігерін салғанын атап өткен жөн. Қазақ тілінде дыбысталған сөздерді мәтінге айналдыру бойынша аннотацияланған корпустар құрастырылды. Алайда, осыған қарамастан, біздің білуімізше, құрастырылған корпустардың ешқайсысына ашық түрде қол жеткізу мүмкін емес еді. Бұған қоса, қазақ тілінде АМА зерттеулерінің ешқайсысында қазақ тілінің ерекшелігі ескерілген аннотациялау нұсқаулығы болмады. Осыған байланысты жұмыс кезінде мәселе туындады. Сөйтіп, аннотацияланған корпустардың жоғын ескеріп, зерттеуіміз арқылы осы салада бар олқылықтың орнын толтыруға және осылайша одан әрі дамытуға үлес қосуға үміттенген болатынбыз. Нәтижесінде, қазақ тіліндегі АМА-ға арналған KazNERD корпусын құрдық. Ол 25 атаулы мән түрін, 112 мыңнан астам сөйлемді және 136 мыңнан астам аннотацияны қамтиды. Корпусты құрастыру үшін АМА-ға арналған қазақ тіліндегі тұңғыш нұсқаулық әзірленді. Еңбегіміз жоғары бағаланды. Осы корпус пен соның негізінде дыбысталған атаулы мәндерді анықтай алатын автоматтандырылған модель жобасымен былтыр Францияның Марсель қаласында өткен LREC атты сөйлеу және табиғи тілді өңдеу технологияларына арналған әлемдегі танымал және беделді конференцияға қатыстық. Сол жақта институтымыздың жұмысы саладағы мамандар мен сарапшылардың жоғары бағасына ие болды. Әзірленген корпус, нұсқаулық пен жүйені институтымыздың ресми сайты мен GitHub парақшасында және Hugging Face сайтында ашық және тегін ұсынып отырмыз.
– Қазір жобаны қолданатындардың саны көп пе? Сұраныс деңгейі қандай?
– Жобамызды қолданатындардың саны ұдайы өсіп келеді. Бұл қазақтілді аудиторияның табиғи тілді өңдеудің озық құралдарын пайдалануға деген қызығушылығы артып келе жатқанын көрсетеді. Сұраныс деңгейін тұрақты ұстап тұрған зерттеушілер, контент жасаушылар, бизнес және тіл энтузиастары сияқты әртүрлі мүдделі тараптар деп айтуға болады. Жобаны тек өзіміздің ғана емес, басқа елдердің азаматтары да қолданатынын айтып өткен жөн. Сонымен қатар жобаны жеке адамдар да, ұйымдар да қолданады. Институтымыздың корпустары мен модельдерін жүктеген жүздеген ұйымның арасында Халықаралық ақпараттық технологиялар университеті, Сәтбаев университеті, Алматы энергетика және байланыс университеті, әл-Фараби атындағы Қазақ ұлттық университеті, Сулейман Демирель атындағы университет, Қазақстан-Британ техникалық университеті, Гумилев атындағы Еуразия ұлттық университетімен қатар Ломоносов атындағы Мәскеу Мемлекеттік университеті, Калифорния университеті, Беркли сияқты тағы да басқа ұйымдар бар. Жобаларымызды қолданатын отандық және халықаралық ұйымдардың толық тізімін институтымыздың ресми сайты мен парақшаларына жариялап қойдық.
– Мұны сұраған себебім: қазақ тіліндегі контенттің сұранысы аз, қызықпайды, оқымайды, көрмейді деген сөзді айтушылар да кездеседі. Бұл, айналып келгенде тілдің қолданыс аясы тар дегенді меңзейтін, соған келіп тірелетін мәселе. Жалпы, жасанды интеллект, IT саласындағы қазақ тілінің болашағын қалай бағалайсыз? Әлеуетіміз қандай?
– Жасанды интеллект және ақпараттық технологиялар саласындағы қазақ тілінің болашағы зор деп сеніммен айта аламын. Күнделікті өмірде, тұрмыста жасанды интеллект пен ақпараттық технологиялардың рөлі күн өткен сайын күш алып бара жатқандықтан, тілімізді осы технологияларға интеграциялау көптеген мүмкіндікті ашады. Жасанды интеллект қосымшаларында табиғи тілді өңдеудің маңызы артып, тіл модельдері мен құралдарына сұраныс артып келеді. Осы орайда табиғи тілді өңдеудің мүмкіндіктерін дамыту арқылы қазақ тіліндегі коммуникацияны жақсартуға, контент, мәтін талдау және аударманың сапасын жақсартуға болады. Бұл қазақ тілінде сөйлейтіндердің мүмкіндіктерін кеңейтіп қана қоймайды, сонымен қатар мәдениетаралық өзара байланыстың нығаюына, білгеніңді бөлісіп, білім алмасуға және жаһандық ынтымақтастыққа ықпал етеді. Бұдан бөлек, қазақ тілін жасанды интеллект пен ақпараттық технологиялар платформаларына енгізу арқылы оның өзектілігі мен өміршеңдігін әлемге таныта аламыз.
– Қазақ тілін цифрлық технологияларға бейімдеу оның қолданыс аясына қалай әсер етеді?
– Қазақ тілі – бай, ауқымды болғандықтан, оны цифрлық технологияларға бейімдеу трансформациялық әлеуетке ие. Цифрлық технологиялар тілдің сақталуына, үйренем деушілерге қолжетімді, ыңғайлы болуына, жиі қолданыста болуына ықпал етеді. Мәселен, біздің жаңа деректер жинағымыз болашақта ауызша пәрменді қажет ететін ақылды үйлерде, ақылды көліктерде, виртуалды көмекшілерде қолданылуы мүмкін. Мысалы, «шамды қос, өшір», «оңға жүр» және т.б. Яғни, қазақ тілін цифрлық платформаларға интеграциялау оның танылуына, қолданылуына жақсы әсер етеді және қазіргі заманғы коммуникация арналарына мейілінше интеграциялайды. Бұл жас ұрпақты тіліміздің маңызы мен ерекшелігін ұғынуға, сөйлеуге, үйренуге ынталандыратыны сөзсіз. Сонымен қатар қазақ тілін жасанды интеллект, ақпараттық технологиялар және табиғи тілді өңдеу саласында қолдану білім беру, экономика және мәдениеттің дамуына айтарлықтай ықпал етеді, практикалық маңызы да өлшеусіз. Қорыта айтқанда, цифрлық технологияларды пайдалана отырып қазақ тілін дамытуға, әлемнің динамикалық тілдік ландшафтына өз үлесімізді қоса аламыз. Бұл біздің әлеммен байланысымызды нығайтып, географиялық шекараларды еңсеруге мүмкіндік беретіні сөзсіз.
– Қазір тек қазақ тілімен шектелмей, басқа тілдер бойынша да жұмыс істеп жатыр екенсіздер. Тағы қандай жобалар жоспарда бар?
– Қазір біз қазақ тіліндегі сұрақ-жауап жүйесі, тестілеуге арналған, қазақша мәтін талдау жүйесіне арналған деректер жинағы және қазақ, орыс, ағылшын және түрік тілдеріндегі аудармаға арналған паралелль корпус құру жобалары бойынша жұмыс істеп жатырмыз. Жиналған корпустардың негізінде машиналық оқыту мен жасанды интеллектіні қолдана отырып қазақ тілінің практикалық мәселелерін шешетін автоматтандырылған бірқатар жобаны әзірлеп шығармақпыз. Соның ішінде қазақ тілінде қойылған сұрақтарға мәтінде дұрыс жауап табуға, бренд пен өнімдерге байланысты тұтынушылардың пікірін саралап, қажеттілігін түсінуге, қазақ тілінен ағылшын, орыс, түрік тілдеріне және осы тілдерден қазақ тіліне аударма жасайтын модельдерді әзірлеп жатырмыз. Бұл жобаларымызда қазақ, орыс, ағылшын, түрік тілдерін жетік білетін мамандар жұмыс істейді.
– Әңгімеңізге рахмет!
Сұхбаттасқан Ділда Уәлибек