Українська компанія Grammarly, яка розвиває інструменти роботи з текстами, презентувала перший анотований GEC-корпус українською мовою. Про це AIN.UA розповіли в прес-службі компанії.
Що таке GEC-корпус
GEC-корпусом називають масив написаних волонтерами текстів, які опрацювали лингвісти, виправивши стилістичні, орфографічні та інші помилки. Загалом, поняття Grammatical Error Correction (GEC) означає виправлення граматичних помилок.
Як зазначають у Grammarly, корпус призначений для наукового та практичного вивчення мови. На момент запуску, він включає понад тисячу різножанрових текстів. До його наповнення долучилися майже 500 добровольців з України і з-за кордону. Масив буде доповнюватись.
GEC-корпус української мови можна завантажити за посиланням.
Мета проекту
- В компанії додають, що реалізований проект прискорить розвиток голосових асистентів і онлайн-систем для виправлення граматики українською мовою;
- посприяє використанню якісної української мови в інтернеті;
- збільшить кількість відкритих інструментів для NLP-вивчення української (natural language processing або обробка природної мови).
«Ми вбачаємо в цьому проєкті особливу цінність для розвитку української комп’ютерної лінгвістики та української мови онлайн і саме тому ухвалили рішення зробити цей проєкт постійним для нашої компанії» — прокоментувала запуск Настасія Осідач, менеджерка команди комп’ютерних лінгвістів Grammarly та керівниця проєкту зі збору корпусу.
Проєкт GEC-корпусу українською стане постійним, зазначають в Grammarly. Написати есе, перекласти текст чи поділитись власним матеріалом можна на сайті проекту.
Источник: ain.ua