Тарихи ішкі корпус – бабалар жазба мұрасының сандық дерекқоры. Өткеннің аманатын болашаққа жеткізетін көпір. Осылайша, ХІ-ХХ ғғ. тарихи жазба мұра баршаға қолжетімді болып отыр. Түпнұсқа, транскрипция, аударма – бәрі бір жерде.
Жақында елордада өткен стенд-конференцияда А.Байтұрсынұлы атындағы Тіл білімі институты смарт-өнімдерді таныстырды.
Институт директоры Анар Фазылжан қазақ тілінің IT тіліне айналатынына сенімді. Сондықтан тілдің креативті индустрияда қарыштап дамуына жағдай жасау керегін айтты. Заман ағымына сай тілдің де өзгеріске ұшырап, бейімделе түсетінін түсіндірді.
Тіл білімі институты интеллектуалдық база аясында 20-ға жуық жаңа өнім жасаған. Одан бөлек 70 миллион сөзден тұратын қазақ тілінің ұлттық корпусын түзген. Атап айтсақ, «Қазақ тілінің әмбебап электрондық сөздігі», «Тілтанымдық электрондық кітапхана», «Қазақ мәтінін автоматты тану жүйесі», «Ақылды мәтін түзеткіш» және «Әмбебап электронды сөздік» сынды смарт-өнім бар. Аталған өнімдер қазақ тілін терең зерттеп, тіл үйренемін дегендерге негізгі тірек бола алады.
Іс-шараға қатысқан Ғылым және жоғары білім министрі Саясат Нұрбек әлемде жыл сайын бірнеше тілдің өлетінін атай отырып, оның себептерін талдады. Министрдің айтуынша, сөйлейтін адам аз. Тілді дамытудың алғышарты – тілді цифрлық форматта дамыту, яғни цифрлық кеңістікте үлкен модельдерді қалыптастыру.
– Бұл тілдің болашақта тірі қалуының алғышарты, кепілі деп айтуға да болады. Біз бүкіл ресурстарымызды, сол бұрыннан келе жатқан ұлттық корпус, подкорпустар, кіші корпустардың бәрін бір жүйеге келтіріп, токендерге алмастырдық, қазір KAZ-LLM деген моделіміз шықты, – деді министр.
Институт мамандарының айтуынша, Тілтанымдық электрондық кітапхана – қазақ тіл білімінің қазынасы. Tbikitap.kz сайтында 7 мыңнан астам тілтанымдық еңбек жинақталған. Моно-
графия, сөздік, жинақ, автореферат, көркем шығармалар, диссертациялар мен энциклопедиялар да қолжетімді. Әдебиеттер тіл білімінің әр саласы бойынша топтастырылған.
Қазақ тілінің әмбебап электрондық сөздігі – қазақ тіліндегі сөздердің лексикалық, фразеологиялық, омонимдік, синонимдік, мәдени мағыналары берілген бірегей электрондық сөздік. Оқырман іздеген сөзін табу үшін ондаған кітап ақтармайды. Электрондық сөздік бірқатар ерекшеліктерге ие. Мәселен, омоним, синоним сөздерді ажыратып, оған байланысты тіркестерді көрсетеді. Сөздікте шартты қысқартулар арқылы кірме сөздің қай тілден енгені, терминдердің латын, грек т.б. тілдердегі ғылыми баламасы, фразеологизмдердің дефинициялары, әр омонимнің мағынасы, сөз табы, мысалдары берілген.
Ал Tbiocr.kz – қазақ мәтінін автоматты тану жүйесі. Бұл – ғалымдарға, жалпы қолданушыларға арналған көмекші құрал. Сайтта қазақ мәтініндегі таңбаларды нейрондық желі арқылы оптикалық тану жүйесі бар. PDF, PNG, JPEG, JPG форматындағы файлды оқи алады. Жүйе фундаментінің базасы шамамен 54 мың қазақ сөзін қамтиды. Нейрондық жүйені оқытуда
500 мың синтетикалық кескіннен тұратын оқу жинағы мен 2 мың қосымша синтетикалық кескін қолданылды. Кодтары ашық қолданысқа берілген қазақ баспа мәтінін автоматты тану бағдарламасы бар.
TBIJAZU.kz – ақылды мәтінтүзеткіш. Үлкен тілдік модель арқылы қазақ мәтініндегі грамматикалық, стильдік, пунктуациялық қателерді жоғары дәлдікпен жөндейтін жүйе. Жүйе фундаметінің базасы шамамен 1 миллион 200 мың сөзден тұрады. Модель қазақ мәтінін орфографиялық норма бойынша түзейді, сондықтан ChatGpt моделінен әлдеқайда дәлірек жұмыс істейді. Модель қазақ тілі морфологиясы мен синтакисисінің ерекшеліктері бойынша контекске сай түзету енгізеді.
Тарихи ішкі корпус – бабалар жазба мұрасының сандық дерекқоры. Өткеннің аманатын болашаққа жеткізетін көпір. Осылайша, ХІ-ХХ ғғ. тарихи жазба мұра баршаға қолжетімді болып отыр. Түпнұсқа, транскрипция, аударма – бәрі бір жерде. Хатталған тарихи деректер көз алдыңызда тұрады. Әр қолжазбаның паспорты берілген. 700 мың сөзден тұратын тарихи мәтіндер базасы арқылы шығарманы түпнұсқадан көре аласыз. Сөйтіп, тіліміздің эволюциясымен танысасыз.
Заманауи поэзия ішкі корпусы –
300 мың сөз қамтылған қазақ өлеңдерінің электрондық базасы. Іздеген сөзіңіздің
500 өлеңін көре аласыз. Өлең орфоэпиясы, сөз сазы мен интонациясын табасыз. Ақын жайында толық мәлімет алып, өлең құрылысының ерекшелігін танисыз.
Ал Learner corpus өнімі Оксфордта қазақ тілін үйретуге арналған интерактивті база. Онда деңгейлік сабақтар, лексика-грамматика, мәтіндер, ойсызбалар, бейнеконтент берілген. Бұл – қазақ тілін өз бетінше үйренуші англофондарға арналған тегін, сапалы ресурс. Қазақ-ағылшын-түрік-әзербайжан-өзбек-ұйғыр тілдеріндегі теңестірілген мәтіндер базасы әлем классиктерінің әдеби шығармаларын, BBC, CNN жаңалық мәтіндерін, Нобель сыйлығын алған туындыларды – барлығы 3 мыңға жуық мәтінді қамтиды.
Институт өкілдері дайындаған «Қазақ тілінің ұлттық корпусы» қатысушыларды таңдандырды. Сынап көру үшін ұйымдастырушыларға қалаған сөзді дыбыстап, талдатты. Бұл конференцияға келген зиялы қауым өкілдерінің де көңілінен шықты. Іс-шара соңында институт жанынан жарық көрген бірнеше еңбектің тұсауы кесілді.
А.БИМЕНДІ