Лингвостатистический портрет гостя

Идея заключается в следующем. Извлекаем все комментарии от имени анонимного пользователя, именуемого на сайте «Гость», строим частотную таблицу по каждому слову и получаем приблизительный портрет среднестатистического анонимного пользователя сайта.
Итак, Гость — кто он? :)

  1. Гость предпочитает Linux;
  2. Любимым дистрибутивом является Ubuntu. Второе место за Debian, третье за Mandriva;
  3. Интересуется и Windows, но приблизительно в 2 раза меньше, чем Linux;
  4. Из коммерческих компаний наибольшее внимание уделяет Microsoft. Значительно меньше интересуется Google;
  5. Из продукции Microsoft больше всего любит обсуждать Windows Vista;
  6. Из свободного ПО наибольший интерес к KDE, OpenOffice и GNOME;
  7. Любит говорить о KDE почти в 2 раза чаще, чем о GNOME;
  8. Часто бывает не согласен с авторами статей. Любимое восклицание при этом «бред!»;
  9. Вежлив. В разы чаще говорит «вы» чем «ты». Часто говорит «спасибо»;
  10. Больше всего ссылается на сайты в зоне .RU, потом в .COM, потом в .ORG;
  11. Одинаково часто упоминает «ie» и «firefox»;
  12. Любимое слово — союз «и». Вероятность того, что гость использует его в своем комментарии составляет примерно 20-25%.
  13. Гость имеет словарный запас в 10829 слов;
Ваша оценка: Нет Средняя оценка: 5 (2 votes)
pomidorius аватар

О усредненном потрете зарегистрированного пользователя в следующей серии. Особенно любопытны различия. Как вы думаете, у какой категории пользователей больше словарный запас? Какие дистрибутивы предпочитает зарегистрированный пользователь? Каким софтом интересуется? :)

Ваша оценка: Нет

>>> Любимое слово — союз «и»
Мне кажется, это некорректно. Союзы и предлоги должны быть исключены из результатов (imho), так как они не являются самостоятельными словами в полном смысле и не могут отражать никаких "словарных пристастий" пользователей.

Ваша оценка: Нет
pomidorius аватар

Согласен. Но для зарегистрированных пользователей получилось другое слово. Только этот факт я и хотел подчеркнуть, говоря что «и» - «любимое» слово.

Ваша оценка: Нет

1.Да,с некоторых пор предпочитаю именно Линукс,поэтому я и здесь(очередное И)))...
2.Любимый дистрибутив вообще-то Федора,но сижу на Убунту..пока...
3.О_о..Виндой я щас стараюсь вообще не интересоваться..принципиально...
4.Из коммерческих компаний больше всего внимания уделяю...Скайпу..такчто да,Микрософт,но вынужденно)))...
5.Про Висту я забыл еще года 3 назад и стараюсь не вспоминать(см. выше)...
6.Наибольший интерес к Гному...
7.И(опять И) говорить люблю о Гноме чаще...
8.Чаще бываю несогласен с комментаторами,а не с авторами статей...
9.Да,вежлив,да говорю Вы и спасибо,ну воспитание у меня такое...
10.Естественно,всё-таки мой родной язык это русский...
11.И(!) про IE я тоже уже давно не вспоминаю(выше,выше),Лис для меня вне конкуренции(боюсь,что тоже пока что)...
12.Ну и что тут и сказать..наверно и у меня и есть и такой грешок...)))
13.Не считал,но всё возможно...

Ваша оценка: Нет