Ученые МГУ обучили нейросеть для анализа научных текстов

Сотрудники лаборатории Машинного обучения и семантического анализа Института искусственного интеллекта МГУ при поддержке портала eLIBRARY.RU обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке   SciRus-tiny. С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации, и заканчивая извлечением научных терминов.

«Модель показывает высокие значения метрик, имея при этом небольшое количество параметров, а значит, гораздо меньшие требования к вычислительным ресурсам, – прокомментировал в своем выступлении на конференции «Искусственный интеллект в химии и материаловедении» первые опубликованные результаты академик РАН, руководитель междисциплинарной группы проекта Алексей Хохлов. – Данное свойство делает SciRus-tiny эффективной моделью для использования в условиях высокой нагрузки. Разработанная нейросеть ляжет в основу поисково-рекомендательной системы для ученых, тестирование которой начнется уже в начале следующего года».

Также исследователи опубликовали в открытом доступе бенчмарк ruSciBench для оценки эмбеддингов научных текстов, состоящий из 14 задач, выполняемых на почти 400 тыс. параллельных аннотациях на русском и английском языках. Все работы по обучению модели и подготовке бенчмарка были проведены в рамках гранта 23-Ш05–21 МНОШ МГУ «Математические методы анализа сложных систем», проект «Разработка математических методов машинного обучения для обработки текстовой научной информации большого объема». Все результаты подробно описаны в статье на портале habr.com.

«Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существует бенчмарк SciDocs и его расширенная версия SciRepEval. Для русского языка первый бенчмарк ruSciDocs был опубликован нами около года назад вместе с моделью ruSciBERT, и состоял из небольшого количества данных на русском языке, которые мы смогли собрать в открытом доступе. В этом году, благодаря данным, которые предоставил нам портал eLIBRARY.RU, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик.» – рассказал руководитель лаборатории профессор РАН, д.ф.-м.н. Константин Воронцов.

Авторы отмечают, что опубликованная модель – первая в планируемой линейке. В дальнейшем планируется разработка моделей большего размера, что позволит достичь еще более высокого качества.

Новость Научной электронной библиотеки eLIBRARY.RU

Вам может также понравиться...