жұма, 11 сәуір, 2025

«Қазақ тілінің ұлттық корпусы» жасақталды

Тарихи ішкі корпус – бабалар жазба мұ­расының сандық дерекқоры. Өт­кен­нің аманатын болашаққа жеткізетін кө­пір. Осылайша, ХІ-ХХ ғғ. тарихи жазба мұ­ра баршаға қолжетімді болып отыр. Түпнұсқа, транскрипция, аударма – бәрі бір жерде.

Жақында елордада өткен стенд-конференцияда А.Байтұрсынұлы атындағы Тіл білімі институты смарт-өнімдерді таныстырды.  

Институт директоры Анар Фа­зыл­жан қазақ тілінің IT тіліне айна­ла­ты­нына сенімді. Сондықтан тілдің креа­тив­ті индуст­рияда қарыштап дамуына жағдай жасау керегін айтты. Заман ағымына сай тіл­дің де өзгеріске ұшырап, бейімделе тү­се­тінін түсіндірді. 
Тіл білімі институты интеллектуалдық ба­за аясында 20-ға жуық жаңа өнім жа­са­ған. Одан бөлек 70 миллион сөзден тұра­тын қазақ тілінің ұлттық корпусын түзген. Атап айтсақ, «Қазақ тілінің әмбебап элект­рон­дық сөздігі», «Тілтанымдық элект­рон­дық кітапхана», «Қазақ мәтінін автоматты тану жүйесі», «Ақылды мәтін түзеткіш» жә­не «Әмбебап электронды сөздік» сынды смарт-өнім бар. Аталған өнімдер қазақ тілін терең зерттеп, тіл үйренемін деген­дер­ге негізгі тірек бола алады. 
Іс-шараға қатысқан Ғылым және жо­ғары білім министрі Саясат Нұрбек әлемде жыл сайын бірнеше тілдің өлетінін атай оты­рып, оның себептерін талдады. Ми­нистр­дің айтуынша, сөйлейтін адам аз. Тіл­ді дамытудың алғышарты – тілді циф­р­лық форматта дамыту, яғни цифрлық кеңіс­тікте үлкен модельдерді қалыптас­тыру.     
– Бұл тілдің болашақта тірі қалуының ал­ғышарты, кепілі деп айтуға да болады. Біз бүкіл ресурстарымызды, сол бұрыннан келе жатқан ұлттық корпус, подкорпустар, кі­ші корпустардың бәрін бір жүйеге кел­тіріп, токендерге алмастырдық, қазір KAZ-LLM деген моделіміз шықты, – деді министр. 
Институт мамандарының айтуынша, Тілтанымдық электрондық кітап­хана – қазақ тіл білімінің қазынасы. Tbikitap.kz сайтында 7 мыңнан астам тіл­танымдық еңбек жинақталған. Мо­но-
г­рафия, сөздік, жинақ, автореферат, көркем шы­ғармалар, диссертациялар мен энцик­ло­педиялар да қолжетімді. Әдебиеттер тіл бі­лімінің әр саласы бойынша топтас­ты­рыл­ған. 
Қазақ тілінің әмбебап электрондық сөз­дігі – қазақ тіліндегі сөздердің лекси­ка­лық, фразеологиялық, омонимдік, сино­ним­дік, мәдени мағыналары берілген біре­­­­гей элек­трондық сөздік. Оқырман іздеген сөзін табу үшін ондаған кітап ақтармайды. Электрондық сөздік бірқатар ерекше­лік­тер­ге ие. Мәселен, омоним, синоним сөз­дер­ді ажыратып, оған байланысты тіркес­тер­ді көрсетеді. Сөздікте шартты қыс­қар­тулар арқылы кірме сөздің қай тілден ен­гені, терминдердің латын, грек т.б. тіл­дер­дегі ғылыми баламасы, фразеологизмдердің дефинициялары, әр омонимнің мағынасы, сөз табы, мысалдары берілген.
Ал Tbiocr.kz – қазақ мәтінін автоматты тану жүйесі. Бұл – ғалымдарға, жалпы қол­данушыларға арналған көмекші құрал. Сайт­та қазақ мәтініндегі таңбаларды ней­рон­дық желі арқылы оптикалық тану жүйе­сі бар. PDF, PNG, JPEG, JPG форма­тын­да­ғы файлды оқи алады. Жүйе фунда­мен­тінің базасы шамамен 54 мың қазақ сөзін қам­тиды. Нейрондық жүйені оқытуда 
500 мың синтетикалық кескіннен тұратын оқу жи­нағы мен 2 мың қосымша синте­ти­калық кес­кін қолданылды. Кодтары ашық қол­да­ныс­қа берілген қазақ баспа мәтінін ав­то­матты тану бағдарламасы бар. 
TBIJAZU.kz – ақылды мәтінтүзеткіш. Үл­кен тілдік модель арқылы қазақ мә­ті­нін­дегі грамматикалық, стильдік, пунк­туа­ция­лық қателерді жоғары дәлдікпен жөндейтін жүйе. Жүйе фундаметінің базасы шамамен 1 миллион 200 мың сөзден тұрады. Модель қазақ мәтінін орфографиялық норма бойын­ша түзейді, сондықтан ChatGpt мо­делінен әлдеқайда дәлірек жұмыс істейді. Мо­дель қазақ тілі морфологиясы мен син­такисисінің ерекшеліктері бойынша кон­текске сай түзету енгізеді. 
Тарихи ішкі корпус – бабалар жазба мұ­расының сандық дерекқоры. Өт­кен­нің аманатын болашаққа жеткізетін кө­пір. Осылайша, ХІ-ХХ ғғ. тарихи жазба мұ­ра баршаға қолжетімді болып отыр. Түпнұсқа, транскрипция, аударма – бәрі бір жерде. Хатталған тарихи деректер көз ал­дыңызда тұрады. Әр қолжазбаның пас­порты берілген. 700 мың сөзден тұратын та­рихи мәтіндер базасы арқылы шығар­маны түпнұсқадан көре аласыз. Сөйтіп, тіліміздің эволюциясымен танысасыз. 
Заманауи поэзия ішкі корпусы – 
300 мың сөз қамтылған қазақ өлеңдерінің электрондық базасы. Іздеген сөзіңіздің 
500 өлеңін көре аласыз. Өлең орфоэпиясы, сөз сазы мен интонациясын табасыз. Ақын жайын­да толық мәлімет алып, өлең құры­лысының ерекшелігін танисыз. 
Ал Learner corpus өнімі Оксфордта қа­зақ тілін үйретуге арналған интерактивті база. Онда деңгейлік сабақтар, лексика-грам­матика, мәтіндер, ойсызбалар, бей­неконтент берілген. Бұл – қазақ тілін өз бетінше үйренуші англофондарға арналған тегін, сапалы ресурс. Қазақ-ағылшын-түрік-әзербайжан-өзбек-ұйғыр тілдеріндегі теңестірілген мәтіндер базасы әлем клас­сик­терінің әдеби шығармаларын, BBC, CNN жаңа­лық мәтіндерін, Нобель сыйлығын алған туындыларды – барлығы 3 мыңға жуық мәтінді қамтиды.
Институт өкілдері дайындаған «Қа­зақ тілінің ұлттық корпусы» қа­тысу­шыларды таңдандырды. Сынап көру үшін ұйымдастырушыларға қалаған сөзді ды­быстап, талдатты. Бұл конференцияға кел­ген зиялы қауым өкілдерінің де көңі­лі­нен шықты. Іс-шара соңында институт жа­нынан жарық көрген бірнеше еңбектің тұ­сауы кесілді. 

А.БИМЕНДІ

Бөлісу: