Идея заключается в следующем. Извлекаем все комментарии от имени анонимного пользователя, именуемого на сайте «Гость», строим частотную таблицу по каждому слову и получаем приблизительный портрет среднестатистического анонимного пользователя сайта.
Итак, Гость — кто он? :)
- Гость предпочитает Linux;
- Любимым дистрибутивом является Ubuntu. Второе место за Debian, третье за Mandriva;
- Интересуется и Windows, но приблизительно в 2 раза меньше, чем Linux;
- Из коммерческих компаний наибольшее внимание уделяет Microsoft. Значительно меньше интересуется Google;
- Из продукции Microsoft больше всего любит обсуждать Windows Vista;
- Из свободного ПО наибольший интерес к KDE, OpenOffice и GNOME;
- Любит говорить о KDE почти в 2 раза чаще, чем о GNOME;
- Часто бывает не согласен с авторами статей. Любимое восклицание при этом «бред!»;
- Вежлив. В разы чаще говорит «вы» чем «ты». Часто говорит «спасибо»;
- Больше всего ссылается на сайты в зоне .RU, потом в .COM, потом в .ORG;
- Одинаково часто упоминает «ie» и «firefox»;
- Любимое слово — союз «и». Вероятность того, что гость использует его в своем комментарии составляет примерно 20-25%.
- Гость имеет словарный запас в 10829 слов;
О усредненном потрете зарегистрированного пользователя в следующей серии. Особенно любопытны различия. Как вы думаете, у какой категории пользователей больше словарный запас? Какие дистрибутивы предпочитает зарегистрированный пользователь? Каким софтом интересуется? :)
>>> Любимое слово — союз «и»
Мне кажется, это некорректно. Союзы и предлоги должны быть исключены из результатов (imho), так как они не являются самостоятельными словами в полном смысле и не могут отражать никаких "словарных пристастий" пользователей.
Согласен. Но для зарегистрированных пользователей получилось другое слово. Только этот факт я и хотел подчеркнуть, говоря что «и» - «любимое» слово.
1.Да,с некоторых пор предпочитаю именно Линукс,поэтому я и здесь(очередное И)))...
2.Любимый дистрибутив вообще-то Федора,но сижу на Убунту..пока...
3.О_о..Виндой я щас стараюсь вообще не интересоваться..принципиально...
4.Из коммерческих компаний больше всего внимания уделяю...Скайпу..такчто да,Микрософт,но вынужденно)))...
5.Про Висту я забыл еще года 3 назад и стараюсь не вспоминать(см. выше)...
6.Наибольший интерес к Гному...
7.И(опять И) говорить люблю о Гноме чаще...
8.Чаще бываю несогласен с комментаторами,а не с авторами статей...
9.Да,вежлив,да говорю Вы и спасибо,ну воспитание у меня такое...
10.Естественно,всё-таки мой родной язык это русский...
11.И(!) про IE я тоже уже давно не вспоминаю(выше,выше),Лис для меня вне конкуренции(боюсь,что тоже пока что)...
12.Ну и что тут и сказать..наверно и у меня и есть и такой грешок...)))
13.Не считал,но всё возможно...