Cервис Twitter открыл код проекта Storm,
предназначенного для анализа больших непрерывно поступающих потоков
данных, таких как миллионы лент в Twitter. Продукт был создан компанией
BackType, которая была куплена Twitter в июле этого кода. Код открыт под
лицензией Eclipse Public Licence 1.0. Система написана на языке Clojure
и выполняется внутри виртуальной машины JVM, некоторые скрипты написаны
на языке Python.
Система Storm использовалась для обеспечения работы сервиса BackTweets,
предназначенного для анализа отражения определенных событий в
микроблогах, путем сопоставления на лету новых твитов и используемых в
них ссылок. Например, производилась оценка, как внешние ссылки или
публикуемые в твиттере анонсы, ретранслируются другими участниками.
Несмотря на кажущуюся простоту, для непрерывно поступающих потоков
сообщений задача является достаточно сложной: чтобы определить число
уникальных просмотров URL через Twitter нужно посчитать число сообщений с
данным URL, сформировать общую выборку из всех читателей (followers)
микроблогов в которых упомянут
...
Читать дальше »