13 December 2024

Гарвард создаёт крупнейшую базу данных для обучения искусственного интеллекта

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+
Он сосредоточится на изучении данных отсканированных миллионов книг и старых газет из Гарвардской и Бостонской библиотек. Поддержку университету оказывают OpenAI и Microsoft.
Изображение создано с помощью Canva AI

Гарвардский университет объявил о создании крупнейшей базы данных, содержащей около миллиона книг, находящихся в открытом доступе. Проект реализован в рамках Инициативы по институциональным данным (Institutional Data Initiative, IDI) при поддержке OpenAI и Microsoft. Цель проекта — обеспечить равный доступ к высококачественным данным для обучения моделей искусственного интеллекта (ИИ).

IDI сосредоточится на уточнении миллиона книг, находящихся в открытом доступе и отсканированных Гарвардской библиотекой. В сотрудничестве с Бостонской публичной библиотекой Гарвард сделает доступными в качестве данных миллионы страниц старых газет. Хотя эти коллекции относятся к длинным текстам, IDI стремится к партнёрству с другими субъектами по всем формам данных, включая научные и биомедицинские.

Инициатива, по словам её руководителя Грега Лепперта, стремится создать открытую экосистему данных для ИИ, подобную влиянию операционной системы Linux. База будет полезна не только исследователям, но и небольшим компаниям, которые ранее не имели доступа к таким ресурсам.

Microsoft, как отметил её вице-президент Бёртон Дэвис, поддерживает проект, считая его важным шагом к созданию инклюзивной экосистемы ИИ. Компания уже несколько лет работает над устранением неравенства в доступе к данным, что является ключевым условием развития технологий.

OpenAI также выразила поддержку проекту, который, по мнению её экспертов, создаёт безопасную альтернативу данным, защищённым авторским правом. В условиях судебных разбирательств вокруг использования закрытых данных для обучения ИИ Harvard IDI становится примером того, как можно минимизировать юридические риски.

Запуск таких инициатив, как Harvard IDI и французский проект Common Corpus, поддержанный Министерством культуры Франции, доказывает, что качественные модели ИИ можно обучать без нарушения авторских прав. Однако, как подчёркивает Эд Ньютон-Рекс, бывший руководитель Stability AI, важно, чтобы открытые данные не просто дополняли, а заменяли защищённые данные в обучающих выборках.

Contacts

For general questions

[email protected]

For legal questions

[email protected]

Contacts for media:

Telegram: moi_fee
Signal: moi_fee.13

18+

On December 23, 2022, the Ministry of Justice included Roskomsvoboda in the register of unregistered public associations performing the functions of a foreign agent. We disagree with this decision and are appealing it in court.