Первая попытка диванной аналитики
Известно, что в телеге можно выкачать посты из открытого канала, поэтому я решил немного поиграться. Когда-то видел статью, в которой говорилось, что количество упоминаний нацизма в российских новостях резко возросло после начала войны, и на примере канала SolovievLive решил проверить, так ли это. Ну и пойти немного дальше в анализе.
Сразу хочу сообщить, что я не эксперт в NLP, поэтому не претендую на истину в последней инстанции, коменты, замечания и дискуссии привествуются.
Итак, начнем.
Сначала немного общей инфы. Канал, как я уже писал, назывется SolovievLive, по названию понятно, кто его ведет. Канал был зарегистрирован летом 2019 года, постов и репостов там суммарно около 150 тысяч. Наверное, можно как-то разделить оригинальные посты и репосты, но я предположил, как мне кажется, здраво, что дух репостнутых постов приблизительно соответствует духу оригинальных, поэтому слабо повлияет на статистику.
Первое, что я сделал, это тупо посчитал количество упоминаний разных слов за весь период. Брал ту часть слова, которая не изменяется, например, общее число упоминаний слов, содержащих сочетание "наци", будет состоять из количества упоминаний слов нацизм и его падежей и производных типа денацификации, национализм и его производные etc. В таком случае слова по типу национализация будут вносить определенные погрешности, но я уверен, что небольшие. Результаты показаны ниже.
На картинке выше видно количество упоминаний разных слов в течении дня за весь период существования канала. Какие выводы можно сделать? Действительно, нацизм упоминается не так уж и часто до войны, а после начала войны количество упоминаний резко растет, что подтверждает вывод о том, что речь о нацизме особо не шла раньше, и что нацисты "появились" в Украине только с начала войны. Был еще небольшой всплеск в районе конца июля 2021, я погуглил, что случилось, нашел какое-то выступление Зеленского о Донбассе и Крыме, возможно, оно спровоцировало этот скачок.
Максимум упоминаний НАТО было за месяц до войны, видимо, это связано с угрозами вторжения этого самого НАТО; за последний месяц количество упоминаний снова возросло, и это, видимо, связано с поставками тяжелого вооружения Украине. С упоминаниями России и Украины понятно, идет война между ними, много новостей об Украине автоматом добавляют упоминание Росии.
Где-то когда-то я читал, что в российских новостях чаще говорят об Украине, чем о России, потому что очень важно знать, "что там у хохлов". Оказалось, что это не так. На графике разницы количества упоминаний Россия в среднем упоминается намного чаще.
На предпоследнем графике объединенная статистика по словам Гаага и трибунал. Количесто медленно, но уверенно растет.
Слово денацификация упоминается аж два раза до войны, первый раз в контексте денацификации немцев после второй мировой, второе упоминание в контексте Украины. Интересно, что после начала войны оно упоминается не так часто, как мне казалось.
На следующем рисунки три ворд блоба – за все время, до и после начала войны.
В принципе, можно видеть те важные темы, которые обсуждались и обсуждаются у Соловьева. Как видно, в российских новостях все-таки преобладает Россия.
Дальше я попытался сделать анализ тональности текста. Для этого использовал библиотеку dostoevsky и честно содрал скрипт откуда-то из интернета и немного переделал его. Я не совсем уверен в результатах, потому что модель из этой библиотеки решила, что тестовая фраза "мамку твою ебал" является нейтральным высказыванием, хотя на самом деле нет. В общем, результаты по негативным и позитивным высказываниям приблизительно одинаковые до и после начала войны. Почти нет резко негативных высказываний, но и почти нет резко позитивных, с другой стороны много нейтральных и с маленькой степенью негатива и позитива. Не знаю, можно ли этому доверять, поскольку не специалист.
Картинки ниже:
И таблички, скопированные из вывода функции describe в pandas:
Пока на этом все. Всем, кто потратил время на чтение, спасибо. Если пост зайдет, могу дальше что-то в том же духе выкладывать.
Отличный комментарий!