Murgab

# частотные словари


Частотный словарь от mc.hertzbeat.ru

Для собственных небольших исследований сделал частотный словарь из базы статей агрегатора mc.hertzbeat.ru. Было обработано около 600 МБ очищенного текста (~130 тысяч новостных статей), в основном — это срез избранных и самых популярных статей российской прессы (с уклоном в IT-издания) за последние два года. Общий размер словаря — 840 тысяч слов.

Оказалось, что по «популярности» в прессе Android (10 692 упоминания) превосходит iOS (4 664 упоминания) и iPhone (9 431 упоминание), а Google (18 045) заборола Apple (17 080), но всех, конечно же, победил Путин (20 878 упоминаний). При этом Обама (3 783) конкурирует с Песковым (3730), а Навальный (3 443 упоминания) затмил wi-fi (3 109) и ИГИЛ (1037).

Подумалось, что такой частотный словарь (своего рода свежий срез СМИ) может кому-то пригодиться, поэтому наслаждайтесь:

В несжатом виде (~10 МБ)
В сжатом виде (~3 МБ)
То же самое на github-е, плюс там, возможно, будут появляться обновления...


В разделах программирование и языковое
Андрей Баксаляр  :: 9 мар 2016, в 12:48

Странная библиотека

Сейчас работаю над небольшим проектом для транслитерации большинства популярных языков мира в английские идентификаторы и ищу всякие материалы для работы с естественным языком. Словари и всякое такое. Для языков группы CJK было необходимо найти частотные словари (это такие словари, собирающие самые часто используемые слова в простые текстовые списки) и в этом поиске наткнулся на отличный ресурс на… внезапно — самой Википедии. Там есть раздел, в котором собраны частотные словари для многих языков — Wiktionary: Frequency Lists. Для тех, кто работает в области обработки естественного языка — очень хорошая штука.

Войти через...


Это даст читателю возможность голоса, комментария, создания закладки, и даже написания поста, не говоря о множестве других мелких ништяков.

Соациализируемся


Также найти меня можно в других злачных местах:

Все еще использую электронную почту:
andreybaksalyar@ya.ru