Передовой исследовательский центр Абу-Даби представил крупнейшую в мире модель обработки арабского языка посредством искусственного интеллекта (ИИ).
Обработка естественного языка (Natural Language Processing, NPL), является ключевой частью быстро развивающегося сектора искусственного интеллекта, помогая компьютерам декодировать устное и письменное слово, чтобы ускорить разработку всего, от инструментов языкового перевода до интеллектуальных помощников в стиле Siri и Alexa.
Модель Noor, разработанная в Институте технологических инноваций (Technology Innovation Institute, TII), может дать арабскому миру новое преимущество в стремлении к цифровизации, поскольку такие инструменты, как чат-боты, рыночная аналитика и машинный перевод, безусловно доминируют на англо- и китайскоязычных рынках.

Приоритет состоит в том, чтобы найти способы использования Noor компаниями и учеными для создания новых инструментов, таких как анализ настроений в социальных сетях или разработка новых виртуальных помощников на арабском языке. Ученые стремятся к тому, чтобы Noor вносила свой вклад в общество.
Размер Noor значителен. В NLP размер конкретной модели зависит от количества значений, на которых обучается модель. Эти значения известны как параметры и являются строительными блоками машинного обучения. Чем больше количество параметров, тем сложнее и мощнее модель NLP.
Ранее самой крупной доступной арабской моделью была AraGPT, модель, обученная на 1,5 миллиардах параметров. Noor прошел обучение по 10 миллиардам параметров, включая набор данных, который объединяет веб-данные с книгами, стихами, новостными статьями и технической информацией, чтобы значительно расширить возможности приложений, которые можно создавать с их помощью.
По данным TII, это самый большой из когда-либо созданных высококачественных кросс-доменных наборов арабских данных. В масштабе 10 миллиардов эта модель может решать более сложные задачи и принимать инструкции от людей к машинам.
«Например, Noor может обобщать тексты, помогать в написании — например, пресс-релиза. Также его можно использовать для питания более естественных и эффективных чат-ботов или даже для оценки языкового уровня сотрудников. Это только начало, и мы хотим масштабироваться до еще более крупных и функциональных моделей в будущем», – говорит руководившая проектом Noor директор TII д-р Ибтисам АльМазруи.
TII, подразделение прикладных исследований Совета по исследованиям в области передовых технологий Абу-Даби, является важной частью усилий ОАЭ по диверсификации от зависимости от экспорта нефти и развитию экономики, основанной на знаниях. Noor – это первый шаг в усилиях исследовательского центра по внесению вклада в Стратегию ОАЭ в отношении искусственного интеллекта, путем ускорения интеграции ИИ в экономику.
