Все равно юзабельный метод. Подумав понял что можно же просто прямо из бота дат надергать. И из них уже собрать датасет. Так что в любом случае инструмент откзался суперполезным.
Я уже нашел объяснялово. Потому удалил вопрос. Там суть такова чем выше айди тем юзер новее. И чтобы предсказывать дату создания надо иметь хотя бы небольшой датасет где будет точно указано айди - когда был создан. Исходя из этой информации можно примерно предсказывать дату создания остальных аккаунтов. Загвоздка в "иметь этот датасет {id: 1232, 'date_creation': 2017-02-02}". Вот с этим уже все непросто. Быстрый поиск предсказуемо дал ничего.
Это больше исследовательский проект. Если будет хорошо работать - монетизировать в эту сторону я не собирался его. Да и в принципе это больше обкатка доступных на сегодняшний день технологий. Для персонального понимания что можно сделать что нельзя. На самом деле на этапе тестирования сбора датасетов всплывать стали очень интересные вещи про информационную войну рф в тележечке. Будет время и вдохновение я тут хотя бы один пост запилю по теме.
Ты абсолютно правильно описал проблему, я про нее думал. И пришел к выводу что - особо никак. Кроме случаев когда разные аккаунты пишут одинаковые комменты. Имея достаточно большой датасет (состоящий из разных каналов) это не такой уж и плохой способ и нарыть дубликаты из разряда сложнее чем "пошел нахуй" более чем возможно. Была еще мысль глядеть активность по будним дням и в рабочее время и если переваливает за Н и активность тольк в рабочее время - то не учитывать таких юзеров в финальной статистике и рассматривать как "вероятно бот". Но это тоже не очень надежный путь я это понимаю. Но по факту цель моя не ботов искать, а сделать инструмент который будет суммаризировать настроения и главное разделять все что сказано в комментириях на 3-10 нарративов для для отдельного поста (основная функция). Пускай даже туда боты попадут. Так как они несмотря на свою нереальность настроения формируют все равно хочешь ты этого или нет. И совсем их не учитывать тоже не верно. Поиск ватников это просто сайд фича. Каналы типа рамзана меня мало интересуют. Интересуют те где присутствуют реальные юзеры. Ну и как я сказал, это все нацелено исключительно на украинский сегмент интернета.
Самое смешное, что как показала практика самое надежное слово это "госпереворот" )) Прямо красный флаг. Причем такой что как местных ватанов детектит так и залетных. Из еще интересного "хохол" оказалось рабтает как херовый триггер, крайне ненадежный. Хотя казалось бы.
На самом деле на этапе тестирования сбора датасетов всплывать стали очень интересные вещи про информационную войну рф в тележечке. Будет время и вдохновение я тут хотя бы один пост запилю по теме.
Была еще мысль глядеть активность по будним дням и в рабочее время и если переваливает за Н и активность тольк в рабочее время - то не учитывать таких юзеров в финальной статистике и рассматривать как "вероятно бот". Но это тоже не очень надежный путь я это понимаю.
Но по факту цель моя не ботов искать, а сделать инструмент который будет суммаризировать настроения и главное разделять все что сказано в комментириях на 3-10 нарративов для для отдельного поста (основная функция). Пускай даже туда боты попадут. Так как они несмотря на свою нереальность настроения формируют все равно хочешь ты этого или нет. И совсем их не учитывать тоже не верно.
Поиск ватников это просто сайд фича.
Каналы типа рамзана меня мало интересуют. Интересуют те где присутствуют реальные юзеры. Ну и как я сказал, это все нацелено исключительно на украинский сегмент интернета.