Воскресение, 27 апреля 2025

ЦБ

$ 82.65

94.36

BRENT

$ 66.91

/

5530

RTS

1145.73

16+

+16

  • 25 июня 2024 18:05
  • Новость

Выпускница из Новосибирска разработала датасет для обучения ИИ пересказывать научные статьи


Лента новостей

Уникальность этого датасета заключается в его мультимодальности

Фото: Пресс-служба НГУ

В Новосибирске состоялась значительная разработка в сфере искусственного интеллекта: выпускница НГУ Алена Цанда создала первый открытый мультимодальный датасет для машинного обучения, предназначенный для реферирования научных статей. Об этом сообщили в пресс-службе университета.

Уникальность этого датасета заключается в его мультимодальности: он содержит не только тексты научных статей и их аннотации, но и таблицы, рисунки и описания к ним. Это первый подобный датасет для работы с русскоязычными научными текстами, размещенный в открытом доступе. Ранее подобные датасеты для научной области были недоступны.

"Наша цель – генерировать краткое содержание статей, что особенно важно для научных текстов в связи с растущим объемом информации в сети", – поясняет Алена Цанда.

Датасет включает в себя 480 статей, каждая из которых представлена в виде отдельной директории. Текстовая информация, включающая название работы, аннотацию и полный текст статьи, хранится в текстовых файлах.

Графические элементы, такие как рисунки и таблицы, были вручную сохранены в виде скриншотов. Описания к ним представлены в формате JSON, удобном для чтения как людьми, так и машинами.

В датасете описано 496 рисунков и 279 таблиц. На этом датасете исследователи протестировали популярные большие языковые модели: Gigachat (SBER), YandexGPT (Яндекс) и GPT-3.5 Turbo (OpenAI).

"Интересно, что во время тестирования проявилась особенность современных языковых моделей – цензура. Gigachat, например, посчитал 59% статей датасета неэтичными", – отмечает Цанда.

В дальнейшем разработчики планируют расширить датасет, включив в него статьи по математике и физике, что станет более сложной задачей, так как в них присутствует большое количество формул.

Алена Цанда работала над мультимодальным датасетом совместно со своим научным руководителем Еленой Бручес, кандидатом технических наук, старшим преподавателем кафедры фундаментальной и прикладной лингвистики.

Вместе они подготовили статью для участия в международной конференции по искусственному интеллекту AINL 2024. Разработчики планируют использовать собранные данные для изучения других подходов к суммаризации текстов, а также создать собственный инструмент для генерации аннотаций к научным статьям.
 

поделиться

поделиться


Популярное