Гарвард создаёт крупнейшую базу данных для обучения искусственного интеллекта

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+

Он сосредоточится на изучении данных отсканированных миллионов книг и старых газет из Гарвардской и Бостонской библиотек. Поддержку университету оказывают OpenAI и Microsoft.

Изображение создано с помощью Canva AI

Гарвардский университет объявил о создании крупнейшей базы данных, содержащей около миллиона книг, находящихся в открытом доступе. Проект реализован в рамках Инициативы по институциональным данным (Institutional Data Initiative, IDI) при поддержке OpenAI и Microsoft. Цель проекта — обеспечить равный доступ к высококачественным данным для обучения моделей искусственного интеллекта (ИИ).

IDI сосредоточится на уточнении миллиона книг, находящихся в открытом доступе и отсканированных Гарвардской библиотекой. В сотрудничестве с Бостонской публичной библиотекой Гарвард сделает доступными в качестве данных миллионы страниц старых газет. Хотя эти коллекции относятся к длинным текстам, IDI стремится к партнёрству с другими субъектами по всем формам данных, включая научные и биомедицинские.

Инициатива, по словам её руководителя Грега Лепперта, стремится создать открытую экосистему данных для ИИ, подобную влиянию операционной системы Linux. База будет полезна не только исследователям, но и небольшим компаниям, которые ранее не имели доступа к таким ресурсам.

Microsoft, как отметил её вице-президент Бёртон Дэвис, поддерживает проект, считая его важным шагом к созданию инклюзивной экосистемы ИИ. Компания уже несколько лет работает над устранением неравенства в доступе к данным, что является ключевым условием развития технологий.

OpenAI также выразила поддержку проекту, который, по мнению её экспертов, создаёт безопасную альтернативу данным, защищённым авторским правом. В условиях судебных разбирательств вокруг использования закрытых данных для обучения ИИ Harvard IDI становится примером того, как можно минимизировать юридические риски.

Запуск таких инициатив, как Harvard IDI и французский проект Common Corpus, поддержанный Министерством культуры Франции, доказывает, что качественные модели ИИ можно обучать без нарушения авторских прав. Однако, как подчёркивает Эд Ньютон-Рекс, бывший руководитель Stability AI, важно, чтобы открытые данные не просто дополняли, а заменяли защищённые данные в обучающих выборках.

News

13 December 2024

Гарвард создаёт крупнейшую базу данных для обучения искусственного интеллекта

Similar articles

Минцифры разработало концепцию регулирования ИИ до 2030 года

Госдума предлагает контролировать нейросети в политической агитации

Минобрнауки озвучило требования к ИИ в образовании

Reddit закрывает «Архиву интернета» доступ к своим материалам

Правительство запускает эксперимент по внедрению ИИ в госуправление

Support us

Our newsletter

Contacts

18+

News

13 December 2024

Гарвард создаёт крупнейшую базу данных для обучения искусственного интеллекта

Share

Similar articles

Минцифры разработало концепцию регулирования ИИ до 2030 года

Госдума предлагает контролировать нейросети в политической агитации

Минобрнауки озвучило требования к ИИ в образовании

Reddit закрывает «Архиву интернета» доступ к своим материалам

Правительство запускает эксперимент по внедрению ИИ в госуправление

Support us

Our newsletter

Contacts

18+