Фильтрация спама методами глубокого обучения

Авторы

  • Ермоленко Татьяна Владимировна ФГБОУ ВО «Донецкий государственный университет» Автор
  • Шалун Никита Андреевич ФГБОУ ВО «Донецкий государственный университет» Автор

DOI:

https://doi.org/10.5281/zenodo.14514835

Ключевые слова:

фильтрация спама, глубокое обучение, word embedding, TF-IDF, языковая модель, модель Трансформер, многослойный персептрон, метод k-Fold

Аннотация

Фильтрация спама относится к задачам классификации естественно-языковых текстов, для решения которой эффективно используются модели глубокого обучения. В статье анализируется возможность применения основных базовых архитектур глубоких сетей к фильтрации спама, таких как сверточные и рекуррентные нейронные сети, а также архитектура Трансформер. Рассмотрены также векторные представления текста на уровне слов и с помощью языковых моделей. Современные языковые модели имеют архитектуру Трансформер, обеспечивают высокую точность классификации, но имеют огромное количество параметров и вычислительную мощность. В связи с этим в работе для фильтрации спама в качестве модели классификации использовался многослойный персептрон, а для получения векторного представления текста – TF-IDF. Такой выбор продиктован необходимостью соблюсти баланс между вычислительной мощностью и точностью. Оценка точности модели осуществлялась кросс-валидацией с разбиением данных методом k-Fold и составила в среднем 99.962%.

Загрузки

Опубликован

03.12.2024

Выпуск

Раздел

Информационные технологии и телекоммуникации

Как цитировать

[1]
2024. Фильтрация спама методами глубокого обучения. Вестник Донецкого университета. Серия 04. Технические науки. 4 (Dec. 2024), 165–174. DOI:https://doi.org/10.5281/zenodo.14514835.