Murgab

# энциклопедии и справочники


Частотный словарь от mc.hertzbeat.ru

Для собственных небольших исследований сделал частотный словарь из базы статей агрегатора mc.hertzbeat.ru. Было обработано около 600 МБ очищенного текста (~130 тысяч новостных статей), в основном — это срез избранных и самых популярных статей российской прессы (с уклоном в IT-издания) за последние два года. Общий размер словаря — 840 тысяч слов.

Оказалось, что по «популярности» в прессе Android (10 692 упоминания) превосходит iOS (4 664 упоминания) и iPhone (9 431 упоминание), а Google (18 045) заборола Apple (17 080), но всех, конечно же, победил Путин (20 878 упоминаний). При этом Обама (3 783) конкурирует с Песковым (3730), а Навальный (3 443 упоминания) затмил wi-fi (3 109) и ИГИЛ (1037).

Подумалось, что такой частотный словарь (своего рода свежий срез СМИ) может кому-то пригодиться, поэтому наслаждайтесь:

В несжатом виде (~10 МБ)
В сжатом виде (~3 МБ)
То же самое на github-е, плюс там, возможно, будут появляться обновления...


В разделах программирование и языковое
Андрей Баксаляр  :: 9 мар 2016, в 12:48

Странная библиотека

Сейчас работаю над небольшим проектом для транслитерации большинства популярных языков мира в английские идентификаторы и ищу всякие материалы для работы с естественным языком. Словари и всякое такое. Для языков группы CJK было необходимо найти частотные словари (это такие словари, собирающие самые часто используемые слова в простые текстовые списки) и в этом поиске наткнулся на отличный ресурс на… внезапно — самой Википедии. Там есть раздел, в котором собраны частотные словари для многих языков — Wiktionary: Frequency Lists. Для тех, кто работает в области обработки естественного языка — очень хорошая штука.


Интересно, а почему сейчас такой литературы не выпускают?

Словарь непонятных для крестьянина слов

Очень актуально, кстати.


В разделах литература , языковое и софт
Андрей Баксаляр  :: 10 янв 2015, в 21:31

Для себя нашел две отличные и очень удобные программы под Android, которыми можно пользоваться как по отдельности, так и в связке. Это — Cool Reader, название которого ничуть не пытается ввести в заблуждение (действительно, классная читалка для электронных книжек) и словарная оболочка Fora Dictionary.

CoolReader + Fora

Cool Reader поддерживает все удобные форматы электронных книжек, в то время как Fora тоже поддерживает большое количество форматов словарей. Например, я сходу подключил к оболочке мощные английские словари Multitran, а также всякие словари Lingvo. Что интересно, Fora хитро индексирует эти словари и очень быстро по ним ищет — выборка из миллионов статей происходит в мгновение ока, прямо во время набора слова.

Но самая магия начинается, когда два этих приложения работают в симбиозе. Допустим, я открываю книгу на английском языке, читаю ее и внезапно встречаю незнакомое слово или даже фразу. Что я делал раньше? Я выходил из читалки, запускал браузер и искал перевод слова там. А если интернета не было, запускал не шибко богатый словарь и пытался найти каждое слово там. Потом переключался обратно в читалку. Уходило на эти манипуляции довольно много времени и часто приходилось дергаться туда-сюда.

Сейчас же сценарий действий такой. Я читаю в читалке книгу, если встречается непонятное слово, я жму на него пальцем два раза:

CoolReader

И моментально получаю полнейший перевод со всеми смыслами:

Fora

А если необходимо перевести фразу, я не отпускаю пальца после двойного тапа от экрана и растягиваю выделение до нужного предела. После этого снизу всплывает небольшая менюшка — там я жму «A > Z»:

CoolReader

И получаю все тот же полный перевод:

Fora

Чтение на языке оригинала становится невероятно быстрым, комфортным и, что немаловажно, полезным (в плане изучения языка). Кстати, книжка, которую я читаю сейчас — тот самый «Марсианин». Пока все очень нравится — вполне себе научно, правдоподобно и интересно, как дочитаю — напишу небольшую рецензию.

Скачать Fora Dictionary и Cool Reader можно без труда, воспользовавшись Гуглом — обе программы бесплатны.


В разделе программирование
Андрей Баксаляр  :: 5 дек 2014, в 06:38

Если занимаетесь программированием, вы скорее всего часто используете справочники по выбранным технологиям. Возможно, к справочникам приходится обращаться очень часто. Функции «словаря» для языка программирования, как правило, берет на себя интернет и отлично с ними справляется. Тем не менее, будет полезно иметь на всякий случай локальную копию документации — с ней работается быстрее.

Скриншот программы Zeal

Для того, чтобы подсматривать информацию о всяких-разных методах, классах, тегах, атрибутах и прочих вещах я теперь использую удобную программу под названием Zeal. Это оболочка для поиска в документации по разным языкам программирования, фреймворкам, CMS и прочим вещам, связанным с написанием софта.

Скриншот программы Zeal

С самой программой никакой документации не поставляется — это лишь оболочка. Но скачав и запустив Zeal, в его опциях вы найдете «репозитарий», в котором можно будет выбрать необходимые справочники (в терминологии Zeal — это «Docsets»). Отметили, нажали Download и приложение все сделает в автоматическом режиме, выкачав базы из Сети.

При желании можно скачивать эти самые Docsets отдельно, файлами, по прямым ссылкам здесь. Перед вами доступный ассортимент:

Доксеты для программы Zeal

Очень удобно, рекомендую!

Небольшой хинт для тех, кто принял Zeal на вооружение: можно использовать фильтры по языкам при поиске статей. Например, мне нужно найти справку по функции time из языка PHP. Для этого я набираю первые буквы названия языка — ph, ставлю двоеточие, и затем набираю time. Т.е. вводя «ph:tim...» я тут же получаю справку по time именно из PHP, без примеси аналогичных функций из других языков.

Если нет необходимости иметь под рукой локальные справочники, рекомендую также обратить внимание на крайне удобный и полезный сервис devdocs.io.


В разделах интернет и языковое
Андрей Баксаляр  :: 12 сен 2014, в 10:04

По долгу службы постоянно приходится подыскивать синонимы, чтобы интереснее и разнообразнее выражать мысли. Синонимы — вообще полезная штука, спасающая от косноязычности и развивающая навыки «вербальной трансляции» мыслей.

Словарь синонимов русского языка

Для быстрого поиска синонимов пользуюсь отличным словарем ASIS от В.Н. Тришина. Он разрабатывается с 93-го года и до сих пор актуален (последняя версия вышла в августе 2014 года). Для наполнения активно используется тонна других словарей, газеты, книги и интернет.

Для себя использую удобную веб-морду к ASIS — минималистичный и практичный «Словарь русских синонимов» от jeck.ru. Кроме всего прочего, поддерживает морфологию. В общем, рекомендую, если у вас есть такая потребность.


В разделах интернет и общество
Андрей Баксаляр  :: 23 май 2014, в 23:18

Нашел прекрасную иллюстрацию к мнению, что википедию ни в коем случае нельзя рассматривать как серьезную энциклопедию и по умолчанию считать информацию там размещенную истиной в последней инстанции. Чудесная просто правка второго абзаца:

Почему нельзя принимать статьи из википедии как истину в последней инстанции

Войти через...


Это даст читателю возможность голоса, комментария, создания закладки, и даже написания поста, не говоря о множестве других мелких ништяков.

Популярное


Путешествия Макса Майорова во времени 21 фев, в 00:53

Cool-ибин 19 фев, в 09:00

Неоновый Китай 8 фев, в 06:32

По США на товарняках 2 апр, в 14:12

Новое Оно на подходе 30 мар, в 15:45

Соациализируемся


Также найти меня можно в других злачных местах:

Все еще использую электронную почту:
andreybaksalyar@ya.ru