Елордада тілдік ақпараттық-анықтамалық база таныстырылды

Нұр-Сұлтан қаласында «Қазақ тілі ұлттық корпусының публицистикалық мәтіндер кіші корпусының» тұсаукесер рәсімі өтті. Шараға ғалымдар, тіл білімі және ІТ саласының мамандары, зиялы қауым және БАҚ өкілдері қатысты, деп жазды turkystan.kz.

Шараның модераторы – БҒМ Тіл саясаты комитетінің төрағасы Әділбек Қабаның айтуынша, кіші корпус тілдік құбылыстарды іздеуді жеңілдететін ақпараттық-анықтамалық база болып табылады. Онда белгілі бір тілдегі жазбаша және ауызша мәтіндердің электрондық нұсқалары жинақталған.

«Корпустың мақсаты – тіл ресурстарын жинақтап, тілді нормаландыру, жүйелендіру, нәтижесін көпшілік тұтынушыға ұтымды пайдалануға ұсыну. Ал публицистикалық мәтіндер корпусы бұқаралық ақпарат құралдары материалдарын бір базаға жинақтап, оны теориялық және қолданбалы зерттеулерге пайдалануға, түрлі сөздіктер құрастыруға, тілді оқытуда қолдануға ыңғайлы әрі қолжетімді етеді», – деді Әділбек Күнесханұлы.

Жобаны Тіл саясаты комитетінің мемлекеттік тапсырмасы аясында «Шайсұлтан Шаяхметов атындағы «Тіл-Қазына» ұлттық ғылыми-практикалық орталығы жүзеге асырып, оның жұмысына 8 университеттің оқытушылары жұмылдырылған. Бұл ретте «Егемен Қазақстан», «Ана тілі», «Қазақ әдебиеті», «Заң», «Түркістан» газеттерінің соңғы жылдары жарияланған материалдары кіші корпусқа дереккөз ретінде пайдаланылған.

Қолданушылар test.qazcorpora.kz сайтына кіріп, корпустың арқасында бейтаныс сөздерді немесе грамматикалық форманы қолдану ерекшеліктерін тез және тиімді тексеру мүмкіндігіне ие болады. Іздеу параметрлерінде сөз таптары, жалғаулар және сөзден кейінгі арақашықтықты көрсету арқылы қажетті мәтінді оңай таба аламыз. Бір секундтың ішінде табылған мәтінде оның авторы, тақырыбы, стилі мен жанры, типі, хронотопы мен пайдаланылған дереккөзі, жариялану мерзімі сияқты 20-ға жуық параметрлік метабелгілер бар.

Аитова

Жоба жетекшісі, филология ғылымдарының кандидаты Нұрлыхан Аитованың айтуынша, бұл сайт «Қазақ тілінің ұлттық корпусы публицистикалық мәтіндерінің кіші корпусын әзірлеу» жобасы негізінде дайындалған. Кіші корпусты 2021-2025 жылдар аралығында жүзеге асыру жоспарланған. Биыл корпус базасына 2 миллион сөзқолданыс енгізілген. Алдағы уақытта бұл көрсеткішті 5 миллионға жеткізу жоспарланып отыр.

«Ұлттық корпус – мемлекеттік тілдің виртуалды кеңістіктегі қолданысын, семантикалық кеңістігін кеңейтудің, ақпараттық таралымын арттырудың, тілдік ресурсты жаппай қолжетімді етудің тетігі. Ол бірінші кезекте тілші-ғалымдарға лексика мен грамматиканы жан-жақты зерттеуге мүмкіндік береді. Ал корпустың келесі міндеті – тілдің ішкі салалық, яғни лексика, грамматика, тіл тарихы, т.б. аясына қатысты әртүрлі анықтағыштық рөл атқару», – деді Нұрлыхан Аитова.

қазақ тілі

Цифрландырылған жүйе түріндегі қазақ тіліндегі мәтіндер базасы – ұлттық тіліміздің өмір сүруінің белгілі бір кезеңінде әдеби тіл стильдерінің, тілдік қолданыстардың барлық түрлерін жинақтап, тұтынушыларға жеткізуші ақпараттық-анықтамалық ашық жүйе.

Жоба жетекшілерінің айтуынша, «Қазақ тілінің ұлттық корпусының 5 кіші корпусы» ретінде жалғасатын бұл жобаның мәтіндік базасының көлемі 40 миллион сөзқолданысқа дейін жеткізілмек.

Ұқсас жаңалықтар

Back to top button