- 25 июня 2024 18:05
- Новость
Выпускница из Новосибирска разработала датасет для обучения ИИ пересказывать научные статьи
Уникальность этого датасета заключается в его мультимодальности

В Новосибирске состоялась значительная разработка в сфере искусственного интеллекта: выпускница НГУ Алена Цанда создала первый открытый мультимодальный датасет для машинного обучения, предназначенный для реферирования научных статей. Об этом сообщили в пресс-службе университета.
Уникальность этого датасета заключается в его мультимодальности: он содержит не только тексты научных статей и их аннотации, но и таблицы, рисунки и описания к ним. Это первый подобный датасет для работы с русскоязычными научными текстами, размещенный в открытом доступе. Ранее подобные датасеты для научной области были недоступны.
"Наша цель – генерировать краткое содержание статей, что особенно важно для научных текстов в связи с растущим объемом информации в сети", – поясняет Алена Цанда.
Датасет включает в себя 480 статей, каждая из которых представлена в виде отдельной директории. Текстовая информация, включающая название работы, аннотацию и полный текст статьи, хранится в текстовых файлах.
Графические элементы, такие как рисунки и таблицы, были вручную сохранены в виде скриншотов. Описания к ним представлены в формате JSON, удобном для чтения как людьми, так и машинами.
В датасете описано 496 рисунков и 279 таблиц. На этом датасете исследователи протестировали популярные большие языковые модели: Gigachat (SBER), YandexGPT (Яндекс) и GPT-3.5 Turbo (OpenAI).
"Интересно, что во время тестирования проявилась особенность современных языковых моделей – цензура. Gigachat, например, посчитал 59% статей датасета неэтичными", – отмечает Цанда.
В дальнейшем разработчики планируют расширить датасет, включив в него статьи по математике и физике, что станет более сложной задачей, так как в них присутствует большое количество формул.
Алена Цанда работала над мультимодальным датасетом совместно со своим научным руководителем Еленой Бручес, кандидатом технических наук, старшим преподавателем кафедры фундаментальной и прикладной лингвистики.
Вместе они подготовили статью для участия в международной конференции по искусственному интеллекту AINL 2024. Разработчики планируют использовать собранные данные для изучения других подходов к суммаризации текстов, а также создать собственный инструмент для генерации аннотаций к научным статьям.
Рекомендуем:
Популярное
Красная горка в 2025 году: дата, традиции праздника, что можно и что нельзя делать в этот день
В Новосибирске на Ипподромской обрушилась подпорная стенка
В Новосибирске сотрудники Росгвардии обезвредили преступников возле Экспоцентра
Массовую депортацию нелегалов откладывают: Россия продлевает сроки легализации мигрантов
Бастрыкин сообщил о росте преступности среди мигрантов: Шойгу озвучивает другие цифры
Последние новости