РУС/ENG
Кафедра математики
физического факультета МГУ

Теория и практика обработки больших данных

Профессор П. В. Голубцов

 

Коллектив
О направлении
Профессор П. В. Голубцов
Схема связей пользователей Твиттера

В настоящее время человечество производит огромное количество цифровых данных. Информация о телефонных звонках, покупках, поисковые запросы, активность в социальных сетях, медицинские записи, и т. п. рутинно записывается в базах данных. Огромные объемы данных генерируются в процессе крупномасштабных физических или иных экспериментов, таких как, например, исследования на Большом Адронном Коллайдере. Данные в таких коллекциях, как правило, имеют огромный объем, распределены по многочисленным хранилищам и постоянно пополняются. В результате даже простейший анализ такого рода «больших данных» сталкивается с серьезными трудностями. Действительно, традиционные подходы к обработке информации состоят в том, что имеющиеся данные организуются в виде удобных структур (например, матриц) и к ним применяют подходящие алгоритмы обработки и получают продукт анализа (результат). В случае больших данных собрать все нужные для исследовательского проекта данные на одном компьютере становится невозможным или нецелесообразным, поскольку один компьютер не справится с их обработкой. Для таких алгоритмов возникает проблема определенной их трансформации, приводящей к их «распараллеливанию». В более сложных (и интересных) ситуациях речь идет о разработке новых математических методов обработки информации, которые, в силу самой постановки задачи, могут обрабатывать отдельные фрагменты данных параллельно и независимо. В контексте больших данных даже проблема «визуализации» результатов анализа становится весьма нетривиальной, поскольку нередко требуется обнаружить необычные взаимные связи в сложных многомерных структурах. В любом случае, построенный алгоритм анализа данных должен, работая параллельно на многих компьютерах, извлекать из каждого набора исходных данных некоторую промежуточную компактную информацию, постепенно объединять и обновлять ее и, наконец, используя накопленную информацию, генерировать результат.