Частотный словарь от mc.hertzbeat.ru

Для собственных небольших исследований сделал частотный словарь из базы статей агрегатора mc.hertzbeat.ru. Было обработано около 600 МБ очищенного текста (~130 тысяч новостных статей), в основном — это срез избранных и самых популярных статей российской прессы (с уклоном в IT-издания) за последние два года. Общий размер словаря — 840 тысяч слов.

Оказалось, что по «популярности» в прессе Android (10 692 упоминания) превосходит iOS (4 664 упоминания) и iPhone (9 431 упоминание), а Google (18 045) заборола Apple (17 080), но всех, конечно же, победил Путин (20 878 упоминаний). При этом Обама (3 783) конкурирует с Песковым (3730), а Навальный (3 443 упоминания) затмил wi-fi (3 109) и ИГИЛ (1037).

Подумалось, что такой частотный словарь (своего рода свежий срез СМИ) может кому-то пригодиться, поэтому наслаждайтесь:

В несжатом виде (~10 МБ)
В сжатом виде (~3 МБ)
То же самое на github-е, плюс там, возможно, будут появляться обновления...


В разделе интернет
Андрей Баксаляр  :: 9 янв 2015, в 03:56

У всех, даже крупнейших, новостных сайтов бывают косяки и накладки. Постоянно. Достаточно вспомнить смешную историю с Михаилом-Пихаилом. Некоторые такие косяки бывают любопытными. Один из них мне случайно удалось поймать.

Для себя пишу и развиваю небольшой новостной агрегатор mc.hertzbeat.ru, тянущий новости со всеми потрохами с других сайтов. Не через RSS, а напрямую, необрезанные. Сайты сканируются оперативно, по циклу, и новости, успевшие появиться на них, тут же вытягиваются без изменений на «Макрель». Порой это приводит к интересным эффектам — редакции иногда выпускают материал в спешке, с кучей ошибок. А бывает и вовсе с сюрпризами, типа вот такого скриншота редакционной админки РБК в новости про Кадырова:

Внутренняя кухня РБК

Видимо, писатель новостей поспешил и случайно вставил случайно снятый скриншот в срочный материал, который тут же был опубликован, дабы «застолбить сенсацию». «Макрель» заметно сжимает полученные изображения, чтобы они меньше весили и не раздували ленту новостей, поэтому, увы, картинка, подписанная как «Глава Чечни Рамзан Кадыров / Фото: ТАСС» получилась не такой четкой, как хотелось бы.

Внутренняя кухня РБК

Тем не менее, можно подглядеть несколько интересных деталей и посмотреть как работают крупнейшие новостные агентства изнутри. Очевидно, выбором редакции стала ОС Windows 8, работающая на ноутбуке, подключенном к электросети, а также к вайфаю. Пишутся заметки для ленты в полноэкранном JS-редакторе, автоматически подсвечивающем имена известных личностей (то ли для проверки правильности написания, то ли для быстрого просмотра их карточки из внутренней базы данных сведений о публичных персонах). В браузере кроме этого редактора открыто еще несколько внутренних и внешних РБК-шных страничек, а также несколько страниц изданий-конкурентов! :)

Это — Lenta.ru, Газета.ру, Интерфакс, BBC, РИА-новости, Дождь, Фейсбучек, Инстаграмчик и несколько других конкурирующих изданий. По всей видимости, внутри редакции общаются по Скайпу.

Еще из интересных деталей можно отметить то ли просроченный, то ли фальшивый сертификат HTTPS для внутренних страниц издания — стоит сертификат около 100 $ для компаний. Видимо, жалко было приобретать, или просто лень. Еще можно заметить, что кроме web-редактора используется Microsoft Office Word. Видимо, там набиваются материалы для проверки орфографии и грамматики и затем вставляются уже в веб-редактор.

Ссылка на неотредактированную новость. Ссылка на уже исправленную новость на РБК. Вот такая вот любопытная штука.

Пока комментариев нет, будь первым!


В разделе интернет
Андрей Баксаляр  :: 16 дек 2014, в 17:03

Как обычно, красиво и со знанием дела:

Более подробная статистика по поисковым запросам за год здесь.

Пока комментариев нет, будь первым!


В разделе общество
Андрей Баксаляр  :: 13 дек 2014, в 20:15

Бывают события в мире, значение которых в его масштабах не то что выше нуля, а равно ему (или оно даже со знаком минус). И такие события внезапно становятся главной новостью недели, тиражируемой всеми СМИ — везде и всюду. И от них нельзя убежать. Такой новостью стало проникновение кошки в витрину магазина с морскими деликатесами.

Кота-воришку приняли в партию

Я думаю, что тупее и бессмысленнее столь сильно раскрученного информационного повода сыскать сложно. Такого ажиотажа в России, наверное, не было ни вокруг эпохальной миссии «Розетта», ни вокруг успешного тестирования Ориона — корабля, потенциально пригодного для путешествия на Марс.

Людей всегда интересовала всякая бессмысленная чепуха — наверное, на ней проще гонять холостые вычислительные циклы в мозгу. Ignorance is bliss.


В разделах космос и общество
Андрей Баксаляр  :: 25 июн 2014, в 03:17

«Комсомольская правда» спешит сообщить сенсацию!

Могила на марсе

На Марсе найдена могила с крестом. Фото захоронения передал на Землю марсианский робот «Любопытство»

Также, по мнению КП (и его автора с прекрасным стилем письма), на Марсе были найдены черепа!

Ощущения, что робот ездит по погосту создавали и снимки, которые передавал «Спирит» (а почему не «Дух»? прим.) — один из предшественников «Любопытства».… на переднем плане заметен предмет, похожий на череп. Сходство, поразительное… Видны глазницы, впадина носа… Картину портит лишь какой-то странный шарик, прилипший сверху и напоминающий лампочку (?! WTF?). Объект явно выпадает из общего фона. Неподалеку лежит еще один «череп». Он какой-то темный. Хотя, может быть, это и не череп вовсе, а часть некой скульптуры — ее голова. А все остальное зарыто в песок. То ли череп, то ли голова от памятника.

Могила на марсе

Вот, чтобы внести окончательную ясность, я увеличил изображение в фотошопе! Теперь доказательство неопровержимо!

Марсоход «Любопытство». Погост с памятниками на Марсе. Череп с лампочкой. Крест с погребальной табличкой…

Идиоты.

И смешно вроде, и грустно.


В разделах наука и медицина
Андрей Баксаляр  :: 17 май 2014, в 06:21

Содержащийся в красном вине ресвератрол, который ранее считали целебным антиоксидантом, не продлевает жизнь, сообщает агентство Bloomberg.

Вино с бесполезным ресвератролом

К таким выводам пришли ученые под руководством представителя медицинского факультета Университета Джона Хопкинса Ричарда Сембы, которые в течение девяти лет наблюдали за пожилыми жителями двух тосканских деревень, которые регулярно употребляли вино.

В исследовании участвовали 783 мужчины и женщины старше 65 лет: оказалось, что жили они не дольше, а риск развития сердечных болезней или рака был у них не ниже, чем у тех, кто употреблял меньше ресвератрола.

Предыдущие лабораторные исследования позволяли предположить, что ресвератрол, который содержится также в винограде, арахисе и шоколаде, обладает уникальными свойствами, которые замедляют старение и сохраняют здоровье клеток. В то же время фактов, которые подтверждали бы целебное воздействие ресвератрола, до сих пор было недостаточно, чтобы рекомендовать его к использованию в качестве лекарственного средства.

Ресвератрол — природный фитоалексин, выделяемый некоторыми растениями в качестве защитной реакции. В экспериментах с мышами и крысами были выявлены противоопухолевое, противовоспалительные, понижающие уровень сахара в крови, кардиопротекторные и другие положительные эффекты ресвератрола. Автоматически эти свойства были перенесены и на организм человека, и, похоже, никто ранее не задумывался провести соответствующее исследование.

«Мы исходили из гипотезы, что некоторые продукты полезны для здоровья, так как в них содержится ресвератрол, — отметил Семба. — Никакого подтверждения этому мы не нашли».

Очередной элексир молодости оказался очередной фантазией, ошибкой в исследованиях, плодом невежества и извечным страстным желанием человечества искать природные снадобья «укрепляющие сердце и мужскую силу».


В разделах политика и мир
Андрей Баксаляр  :: 2 апр 2014, в 14:14

Третья мировая война немного отличается от первых двух...

Есть такое…

Пока комментариев нет, будь первым!


Тогда:

Чем развлекали себя люди в поездах 60-х

Сейчас:

Чем развлекают себя люди в поездах сегодня

Что будет через 50 лет?

Войти через...


Это даст читателю возможность голоса, комментария, создания закладки, и даже написания поста, не говоря о множестве других мелких ништяков.

Популярное


Путешествия Макса Майорова во времени 21 фев, в 00:53

Cool-ибин 19 фев, в 09:00

Неоновый Китай 8 фев, в 06:32

По США на товарняках 2 апр, в 14:12

Новое Оно на подходе 30 мар, в 15:45

Соациализируемся


Также найти меня можно в других злачных местах:

Все еще использую электронную почту:
andreybaksalyar@ya.ru