Показать сообщение отдельно
Старый 17.03.2023, 16:18   #9  
axm2017 is offline
axm2017
Участник
 
1,747 / 292 (13) ++++++
Регистрация: 15.05.2017
не совсем в тему но показалось интересным https://habr.com/ru/company/bastion/blog/721986/
Вас похекали! Как мы приносим клиентам дурные вести из Даркнета

Зы показалось интересным про анализ текста, ранее как то не задумывался.
" Когда Эдвард Сноуден только начал общаться с журналистами, то просил не делать из его сообщений длинных цитат, чтобы его не вычислили таким образом.


Тут есть несколько подходов. Первый — семантика. То есть, смысловые характеристики текстов, темы и так далее. Так называемый алгоритм мешочка слов. Он считается неточным, так как если взять, например, все тексты из нашего блога — у них будут примерно одни и те же семантические характеристики. Различить авторов так не получится.


Второй подход, так называемые стилометрические характеристики: частота использования различных стилевых элементов, длина предложений, отдельные фразы и конструкции, слова.


Третий подход — кластеризация и классификация с помощью машинного обучения. Тексты векторизуются, например при помощи Word2vec и сравниваются уже сами вектора. Определяется их близость, и на этой основе уже можно делать какие-то выводы.


В общем, сценарий вполне реальный"