Жаңалықтар

Қазақ тілінің болашағы – жасанды интеллект саласында

ашық дереккөзі

Қазақ тілінің болашағы – жасанды интеллект саласында

Тіл тек адамзаттың коммуникация құралы болған күн – тарих қойнауында, енді темір де адамша сөйлеуді үйрене бастады. Жасанды интеллект өміріміздің түрлі аспектілеріне сыналап еніп, қарым-қатынас пен байланыс тәсілін өзгертіп жатыр. Алгоритмдер мен лингвистиканың тоғысуы тіл мен жасанды интеллект арасындағы күрделі байланысты бекіте түсуде. Қазақ тілі де көштен қалмай жаңа дәуірге ақырындап қадам басып барады. 

Жақында Kazakh Named Entity Recognition атты қазақша аудионы мәтінге айнал­дыратын жасанды интеллектке негізделген қосымша шықты. Бұған дейін, керісінше мә­тінді оқып беретін функция қолданысқа ен­ген еді. Жобаларды Назарбаев университеті жа­нындағы Жасанды интеллект пен ақылды жүйе­лер институтының ғалымдары әзірлеген. Осы орайда институттың ғылыми қызметкері, «Қа­зақ тілінің сөйлеу корпусы» жобасы автор­ларының бірі Рүстем Ешпановпен сұхбат­тас­тық. «Қолданбалы лингвистика және екінші тіл­ді меңгеру» мамандығы бойынша Оксфорд уни­верситетін үздік тәмамдаған ғылым ма­гистрімен жасанды интеллект, IT саласындағы қа­зақ тілінің болашағы, тілді цифрлық тех­нологияларға бейімдеуде тілдің қолданыс ая­­сына әсері туралы әңгіме өрбіттік.

– Айтқан сөзді айнытпай жазып бере­тін сапалы қосымшаның керек екені бұрыннан сезілетін, себебі ағылшын, орыс тілдерінде мұндай қосымшалар көп­тен бері қолданыста жүр. Шатас­па­сам, бұған дейін де осы секілді жобалар бол­ды, дегенмен Kazakh Named Entity Recognition жобасы үдеден шығып отыр. Жо­баны әзірлеуге не түрткі болды? Жұ­мыс кезінде тіл жағынан қандай да бір қиындықтар болды ма?

– Иә, Kazakh Named Entity Recognition жо­­­басына тоқталар болсақ, қазақ тіліндегі атау­лы мәндерді анықтауда (АМА) біз алғаш­қы зерттеушілер емеспіз. Бұған дейін елімізде бас­қа ғылыми топтар мен зерттеу ұйымдары та­биғи тілді өңдеудің бұл түріне өз күш-жіге­рін салғанын атап өткен жөн. Қазақ тілінде ды­бысталған сөздерді мәтінге айналдыру бойын­ша аннотацияланған корпустар құрас­тырыл­ды. Алайда, осыған қарамастан, біздің білуі­мізше, құрастырылған корпустардың еш­қайсысына ашық түрде қол жеткізу мүмкін емес еді. Бұған қоса, қазақ тілінде АМА зерт­теу­лерінің ешқайсысында қазақ тілінің ерек­шелігі ескерілген аннотациялау нұсқаулығы бол­мады. Осыған байланысты жұмыс кезінде мә­селе туындады. Сөйтіп, аннотацияланған корпустардың жо­ғын ескеріп, зерттеуіміз арқылы осы салада бар олқылықтың орнын толтыруға және осы­лайша одан әрі дамытуға үлес қосуға үміт­тен­ген болатынбыз. Нәтижесінде, қазақ тіліндегі АМА-ға ар­нал­ған KazNERD корпусын құрдық. Ол 25 атау­лы мән түрін, 112 мыңнан астам сөйлемді және 136 мыңнан астам аннотацияны қамти­ды. Корпусты құрастыру үшін АМА-ға арнал­ған қазақ тіліндегі тұңғыш нұсқаулық әзір­лен­ді. Еңбегіміз жоғары бағаланды. Осы кор­пус пен соның негізінде дыбысталған атау­лы мәндерді анықтай алатын автомат­тан­дырылған модель жобасымен былтыр Фран­цияның Марсель қаласында өткен LREC атты сөйлеу және табиғи тілді өңдеу техно­ло­гияларына арналған әлемдегі танымал және беделді конференцияға қатыстық. Сол жақ­та институтымыздың жұмысы саладағы ма­мандар мен сарапшылардың жоғары баға­сына ие болды. Әзірленген корпус, нұсқаулық пен жүйені инс­титутымыздың ресми сайты мен GitHub па­рақшасында және Hugging Face сайтында ашық және тегін ұсынып отырмыз.

– Қазір жобаны қолданатындардың саны көп пе? Сұраныс деңгейі қандай?

– Жобамызды қолданатындардың саны ұдайы өсіп келеді. Бұл қазақтілді ауди­тория­ның табиғи тілді өңдеудің озық құралдарын пай­далануға деген қызығушылығы артып ке­ле жатқанын көрсетеді. Сұраныс деңгейін тұрақ­ты ұстап тұрған зерттеушілер, контент жа­саушылар, бизнес және тіл энтузиастары сияқ­ты әртүрлі мүдделі тараптар деп айтуға бо­ла­ды. Жобаны тек өзіміздің ғана емес, бас­қа елдердің азаматтары да қолданатынын ай­тып өткен жөн. Сонымен қатар жобаны жеке адамдар да, ұйым­дар да қолданады. Институтымыздың кор­пустары мен модельдерін жүктеген жүз­деген ұйымның арасында Халықаралық ақ­парат­тық технологиялар университеті, Сәт­баев университеті, Алматы энергетика және бай­ланыс университеті, әл-Фараби атындағы Қазақ ұлттық университеті, Сулейман Демирель атындағы университет, Қазақстан-Британ техникалық университеті, Гумилев атындағы Еуразия ұлттық университетімен қа­тар Ломоносов атындағы Мәскеу Мем­ле­кет­тік университеті, Калифорния универ­си­теті, Беркли сияқты тағы да басқа ұйымдар бар. Жобаларымызды қолданатын отандық жә­не халықаралық ұйымдардың толық тізі­мін институтымыздың ресми сайты мен па­рақ­шаларына жариялап қойдық.

– Мұны сұраған себебім: қазақ тілін­де­гі контенттің сұранысы аз, қызықпай­ды, оқымайды, көрмейді деген сөзді айту­шылар да кездеседі. Бұл, айналып кел­генде тілдің қолданыс аясы тар де­генді меңзейтін, соған келіп тірелетін мә­селе. Жалпы, жасанды интеллект, IT саласындағы қазақ тілінің бо­ла­шағын қалай бағалайсыз? Әлеуетіміз қандай?

– Жасанды интеллект және ақпараттық тех­нологиялар саласындағы қазақ тілінің бо­ла­шағы зор деп сеніммен айта аламын. Күн­­­делікті өмірде, тұрмыста жасанды интел­лект пен ақпараттық технологиялардың рөлі күн өткен сайын күш алып бара жатқандық­тан, тілімізді осы технологияларға интегра­ция­лау көптеген мүмкіндікті ашады. Жасанды ин­теллект қосымшаларында табиғи тілді өң­деудің маңызы артып, тіл модельдері мен құ­ралдарына сұраныс артып келеді. Осы орай­да табиғи тілді өңдеудің мүмкіндіктерін да­мыту арқылы қазақ тіліндегі коммуни­ка­ция­ны жақсартуға, контент, мәтін талдау жә­не аударманың сапасын жақсартуға бола­ды. Бұл қазақ тілінде сөйлейтіндердің мүм­кіндіктерін кеңейтіп қана қоймайды, со­ны­мен қатар мәдениетаралық өзара байла­ныс­тың нығаюына, білгеніңді бөлісіп, білім ал­ма­суға және жаһандық ынтымақтастыққа ық­пал етеді. Бұдан бөлек, қазақ тілін жасанды ин­теллект пен ақпараттық технологиялар плат­­­­формаларына енгізу арқылы оның өзек­тілігі мен өміршеңдігін әлемге таныта аламыз.

– Қазақ тілін цифрлық техно­ло­гия­лар­ға бейімдеу оның қолданыс аясына қа­лай әсер етеді?

– Қазақ тілі – бай, ауқымды болғандықтан, оны цифрлық технологияларға бейімдеу трансформациялық әлеуетке ие. Цифрлық тех­нологиялар тілдің сақталуына, үйренем деу­шілерге қолжетімді, ыңғайлы болуына, жиі қол­даныста болуына ықпал етеді. Мәселен, біз­дің жаңа деректер жинағымыз болашақта ауыз­ша пәрменді қажет ететін ақылды үйлер­де, ақылды көліктерде, виртуалды көмекші­лер­де қолданылуы мүмкін. Мысалы, «шамды қос, өшір», «оңға жүр» және т.б. Яғни, қазақ тілін цифрлық плат­фор­маларға интеграциялау оның танылуына, қол­данылуына жақсы әсер етеді және қазіргі заманғы коммуникация арналарына мейілін­ше интеграциялайды. Бұл жас ұрпақты тілі­міз­дің маңызы мен ерекшелігін ұғынуға, сөй­леуге, үйренуге ынталандыратыны сөзсіз. Сонымен қатар қазақ тілін жасанды ин­тел­лект, ақпараттық технологиялар және таби­ғи тілді өңдеу саласында қолдану білім беру, экономика және мәдениеттің дамуына ай­тарлықтай ықпал етеді, практикалық маңы­зы да өлшеусіз. Қорыта айтқанда, цифр­лық технологияларды пайдалана отырып қа­зақ тілін дамытуға, әлемнің динамикалық тіл­дік ландшафтына өз үлесімізді қоса ала­мыз. Бұл біздің әлеммен байланысымызды ны­ғайтып, географиялық шекараларды ең­серу­ге мүмкіндік беретіні сөзсіз.

– Қазір тек қазақ тілімен шектелмей, бас­қа тілдер бойынша да жұмыс істеп жа­тыр екенсіздер. Тағы қандай жобалар жос­парда бар?

– Қазір біз қазақ тіліндегі сұрақ-жауап жүйесі, тестілеуге арналған, қазақша мәтін тал­­дау жүйесіне арналған деректер жинағы жә­не қазақ, орыс, ағылшын және түрік тіл­деріндегі аудармаға арналған паралелль кор­пус құру жобалары бойынша жұмыс істеп жа­тырмыз. Жиналған корпустардың негізінде машиналық оқыту мен жасанды интеллектіні қолдана отырып қазақ тілінің практикалық мәселелерін шешетін автоматтандырылған бір­қатар жобаны әзірлеп шығармақпыз. Со­ның ішінде қазақ тілінде қойылған сұрақ­тар­ға мәтінде дұрыс жауап табуға, бренд пен өнім­дерге байланысты тұтынушылардың пікірін саралап, қажеттілігін түсінуге, қазақ ті­лінен ағылшын, орыс, түрік тілдеріне және осы тілдерден қазақ тіліне аударма жасайтын мо­дельдерді әзірлеп жатырмыз. Бұл жоба­лары­мызда қазақ, орыс, ағылшын, түрік тіл­дерін жетік білетін мамандар жұмыс істейді.

– Әңгімеңізге рахмет!

Сұхбаттасқан Ділда Уәлибек