KWM/project


Что волнует в эту минуту широкую интернет-общественность? На это вопрос мы и постарались ответить, сформировав в автоматическом режиме список из 30 слов, наиболее часто встречающихся в эту самую минуту на новостных ресурсах русской Сети.



АЛГОРИТМ

Метод составления списка состоит в следующем. Весь контент анализируемых страниц, очищенный от тегов разметки и служебных слов, разбивается на отдельные слова, каждое из которых получает индекс цитирования, вычисляемый по следующему алгоритму:

1.За первое появление на одном из ресурсов, подвергшихся анализу, слово получает 10 очков.

2.За каждое следующее появление на одном из ресурсов, подвергшихся анализу, слово получает 1 очко.

Такая система подсчета индекса цитирования позволяет усилить значение «хорового» исполнения ключевых слов новостными ресурсами.

Для удобства отображения результата индекс цитирования затем приводится к 30-бальной шкале.

Приданная каждому слову ссылка указывает на ресурс, содержащий наибольшее число повторений упомянутого слова.


 
 mail us  to index