Первая попытка диванной аналитики / песочница политоты :: телеграм :: соловьиный помёт :: диванная аналитика :: политика (политические новости, шутки и мемы)

песочница политоты диванная аналитика соловьиный помёт телеграм ...политика 

Первая попытка диванной аналитики

Известно, что в телеге можно выкачать посты из открытого канала, поэтому я решил немного поиграться. Когда-то видел статью, в которой говорилось, что количество упоминаний нацизма в российских новостях резко возросло после начала войны, и на примере канала SolovievLive решил проверить, так ли это. Ну и пойти немного дальше в анализе.

Сразу хочу сообщить, что я не эксперт в NLP, поэтому не претендую на истину в последней инстанции, коменты, замечания и дискуссии привествуются.

Итак, начнем.

Сначала немного общей инфы. Канал, как я уже писал, назывется SolovievLive, по названию понятно, кто его ведет. Канал был зарегистрирован летом 2019 года, постов и репостов там суммарно около 150 тысяч. Наверное, можно как-то разделить оригинальные посты и репосты, но я предположил, как мне кажется, здраво, что дух репостнутых постов приблизительно соответствует духу оригинальных, поэтому слабо повлияет на статистику.

Первое, что я сделал, это тупо посчитал количество упоминаний разных слов за весь период. Брал ту часть слова, которая не изменяется, например, общее число упоминаний слов, содержащих сочетание "наци", будет состоять из количества упоминаний слов нацизм и его падежей и производных типа денацификации, национализм и его производные etc. В таком случае слова по типу национализация будут вносить определенные погрешности, но я уверен, что небольшие. Результаты показаны ниже.

Nazi related mentions
	J			24.02.2022 4
2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 NATO related mentions				
i i	4			24.02.2022 k
	1	1	1	1	1	1	1	1	 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 Ukraine related mentions				
	J			24.02.2022 4
2019-07

На картинке выше видно количество упоминаний разных слов в течении дня за весь период существования канала. Какие выводы можно сделать? Действительно, нацизм упоминается не так уж и часто до войны, а после начала войны количество упоминаний резко растет, что подтверждает вывод о том, что речь о нацизме особо не шла раньше, и что нацисты "появились" в Украине только с начала войны. Был еще небольшой всплеск в районе конца июля 2021, я погуглил, что случилось, нашел какое-то выступление Зеленского о Донбассе и Крыме, возможно, оно спровоцировало этот скачок.

Максимум упоминаний НАТО было за месяц до войны, видимо, это связано с угрозами вторжения этого самого НАТО; за последний месяц количество упоминаний снова возросло, и это, видимо, связано с поставками тяжелого вооружения Украине. С упоминаниями России и Украины понятно, идет война между ними, много новостей об Украине автоматом добавляют упоминание Росии.

Где-то когда-то я читал, что в российских новостях чаще говорят об Украине, чем о России, потому что очень важно знать, "что там у хохлов". Оказалось, что это не так. На графике разницы количества упоминаний Россия в среднем упоминается намного чаще.

На предпоследнем графике объединенная статистика по словам Гаага и трибунал. Количесто медленно, но уверенно растет. 

Слово денацификация упоминается аж два раза до войны, первый раз в контексте денацификации немцев после второй мировой, второе упоминание в контексте Украины. Интересно, что после начала войны оно упоминается не так часто, как мне казалось. 

На следующем рисунки три ворд блоба – за все время, до и после начала войны.

люди
Entire period
время
почему
США
in!
ЛЮД1 О
Москве
Before
заявил вопР°сНавального
Навальный	w	■ ■ ■ Жиг
которь,И(-ЩД
Москве
ЛЮДИ
то >,
0-1
У яз _ о_
After
Народной Республики
специальной военной,политика,политические новости, шутки и мемы,песочница политоты,диванная

В принципе, можно видеть те важные темы, которые обсуждались и обсуждаются у Соловьева. Как видно, в российских новостях все-таки преобладает Россия.

Дальше я попытался сделать анализ тональности текста. Для этого использовал библиотеку dostoevsky и честно содрал скрипт откуда-то из интернета и немного переделал его. Я не совсем уверен в результатах, потому что модель из этой библиотеки решила, что тестовая фраза "мамку твою ебал" является нейтральным высказыванием, хотя на самом деле нет. В общем, результаты по негативным и позитивным высказываниям приблизительно одинаковые до и после начала войны. Почти нет резко негативных высказываний, но и почти нет резко позитивных, с другой стороны много нейтральных и с маленькой степенью негатива и позитива. Не знаю, можно ли этому доверять, поскольку не специалист.

Картинки ниже:

Negative posts density,политика,политические новости, шутки и мемы,песочница политоты,диванная аналитика,соловьиный помёт,телеграм

Positive posts density,политика,политические новости, шутки и мемы,песочница политоты,диванная аналитика,соловьиный помёт,телеграм

И таблички, скопированные из вывода функции describe в pandas:

позитивные
негативные
До начала войны
count	8454.000000
mean	0.188359
std	0.146281
min	0.001255
50%	0.152042
95%	0.453272
99.5%	0.962564
max	1.000010
count	57298.000000
mean	0.231984
std	0.119066
min	0.000390
50%	0.212079
95%	0.461027
99.5%	0.665421
max	1.000010
После начала

Пока на этом все. Всем, кто потратил время на чтение, спасибо. Если пост зайдет, могу дальше что-то в том же духе выкладывать.


Подробнее
Nazi related mentions J 24.02.2022 4 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 NATO related mentions i i 4 24.02.2022 k 1 1 1 1 1 1 1 1 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 Ukraine related mentions J 24.02.2022 4 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 Russia related mentions 24.02.2022 4 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 Russia - Ukraine mentions difference Russia related mentions prevail Ukraine related mentions prevail . 1 li V) ' ,r 1 ' ’ 1 WWtltM h i ' » % ' | 1 - '« « T------------------------------------------------------------1----------------------------------------------------------1-----------------------------------------------------------1----------------------------------------------------------1-----------------------------------------------------------1-----------------------------------------------------------1-----------------------------------------------------------r 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 Hague related mentions i ni i i illi ii III i lull i ii ni j II HI ill i mill i iiiiimUi mi mill lu kiiiiki 24.02.2022 Ui 1 1 1 1 1 1 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 Denazification related mentions 1 1 2022-07 2023-01 . . i 1 Kl i4##uj 24.02.2022 wIMÍmIj 2019-07 2020-01 2020-07 2021-01 2021-07 2022-01 2022-07 2023-01 Dates
люди Entire period время почему США in! ЛЮД1 О Москве Before заявил вопР°сНавального Навальный w ■ ■ ■ Жиг которь,И(-ЩД Москве ЛЮДИ то >, 0-1 У яз _ о_ After Народной Республики специальной военной
Negative posts density
Positive posts density
позитивные негативные До начала войны count 8454.000000 mean 0.188359 std 0.146281 min 0.001255 50% 0.152042 95% 0.453272 99.5% 0.962564 max 1.000010 count 57298.000000 mean 0.231984 std 0.119066 min 0.000390 50% 0.212079 95% 0.461027 99.5% 0.665421 max 1.000010 После начала войны 6039.000000 0.176711 0.113933 0.001011 0.148057 0.377551 0.789076 1.000010 42914.000000 0.238842 0.115483 0.000483 0.222710 0.453272 0.665421 0.997827
политика,политические новости, шутки и мемы,песочница политоты,диванная аналитика,соловьиный помёт,телеграм
Еще на тему
Развернуть
Вся эта хуйня про нацизм началась ещё в 2014, просто год назад это начали снова постоянно повторять
Я бы нормировал временные графики на число постов в день, хотя открытий все равно не будет
> использовал библиотеку dostoevsky ... модель из этой библиотеки решила, что тестовая фраза "мамку твою ебал" является нейтральным высказыванием, хотя на самом деле нет

для достоевского это видимо ок
"Как видно, в российских новостях все-таки преобладает Россия."

честно говоря неочень: Россия склоняется в одной ипостаси "Россия", а Украина в двух - "Украины и Украине". Надо делать поиск по корням: "Росси" и "Украин"
wooooot wooooot 28.02.202323:18 ответить ссылка 0.3
я про вордблоб "after"
да, я это понимаю, но там 150 тысяч не очень коротких постов, я просто задолбался ждать обработки и приведения слов в именительный, поэтому сделал как есть
Не доёбка, но хочу уточнить момент:
"Действительно, нацизм упоминается не так уж и часто до войны, а после начала войны количество упоминаний резко растет, что подтверждает вывод о том, что речь о нацизме особо не шла раньше, и что нацисты "появились" в Украине только с начала войны."
А как тут одно следует из другого? После начала войны количество новостей и политоты в принципе бомбонуло в стратосферу. Если у тебя в 10 раз больше новостей про Украину, то не будет ли там закономерно в 10 раз чаще упоминаться слово "наци"? Или я не так понял и это именно % слов на статью? Есть какая-то возможность посмотреть, допустим, сколько раз слово "наци" на 1000 символов упоминалось в разный период?
Aiven Aiven 01.03.202310:27 ответить ссылка 0.1
"А как тут одно следует из другого? После начала войны количество новостей и политоты в принципе бомбонуло в стратосферу. Если у тебя в 10 раз больше новостей про Украину, то не будет ли там закономерно в 10 раз чаще упоминаться слово "наци"? "

да, ты прав, такое может быть, я об этом не подумал

"Есть какая-то возможность посмотреть, допустим, сколько раз слово "наци" на 1000 символов упоминалось в разный период?"

есть, я проверю. спасибо за идею, кстати
Только зарегистрированные и активированные пользователи могут добавлять комментарии.
Похожие темы

Похожие посты
Вот сейчас надо Украину поделить, пусть выкусят они с этим западом. Ватник, ты зачем насрал тут?
Л*
Я НЕ КАКАЯ!!! ДАВАЙТЕ ПОСМОТРИМ. КОМУ ЭТО БЫЛО ВЫГОДНО!!! ЗАМЕТЬТЕ. ДЕРЬМО СОВСЕМ НЕ ПОХОЖЕ НА МОЕ! КСТАТИ. АВТОРИТЕТНО ЗАЯВЛЯЮ - ПОД ТАКИМ УГЛОМ МОГ НАСРАТЬ ТОЛЬКО ПОРОШЕНКО! КОНСИСТЕНЦИЯ ЯВНО НЕ МОЯ. ОЧЕВИДЦЫ. КСТАТИ. ВИДЕЛИ ДВУХ АМЕРИКАНЦЕВ СО СПУЩЕННЫМИ ШТАНАМИ
подробнее»

ватник карикатура диванные аналитики госдеп песочница тупая политота политика,политические новости, шутки и мемы песочница политоты

Ватник, ты зачем насрал тут? Л* Я НЕ КАКАЯ!!! ДАВАЙТЕ ПОСМОТРИМ. КОМУ ЭТО БЫЛО ВЫГОДНО!!! ЗАМЕТЬТЕ. ДЕРЬМО СОВСЕМ НЕ ПОХОЖЕ НА МОЕ! КСТАТИ. АВТОРИТЕТНО ЗАЯВЛЯЮ - ПОД ТАКИМ УГЛОМ МОГ НАСРАТЬ ТОЛЬКО ПОРОШЕНКО! КОНСИСТЕНЦИЯ ЯВНО НЕ МОЯ. ОЧЕВИДЦЫ. КСТАТИ. ВИДЕЛИ ДВУХ АМЕРИКАНЦЕВ СО СПУЩЕННЫМИ ШТАНАМИ