Фильтрация спама методами глубокого обучения
DOI:
https://doi.org/10.5281/zenodo.14514835Ключевые слова:
фильтрация спама, глубокое обучение, word embedding, TF-IDF, языковая модель, модель Трансформер, многослойный персептрон, метод k-FoldАннотация
Фильтрация спама относится к задачам классификации естественно-языковых текстов, для решения которой эффективно используются модели глубокого обучения. В статье анализируется возможность применения основных базовых архитектур глубоких сетей к фильтрации спама, таких как сверточные и рекуррентные нейронные сети, а также архитектура Трансформер. Рассмотрены также векторные представления текста на уровне слов и с помощью языковых моделей. Современные языковые модели имеют архитектуру Трансформер, обеспечивают высокую точность классификации, но имеют огромное количество параметров и вычислительную мощность. В связи с этим в работе для фильтрации спама в качестве модели классификации использовался многослойный персептрон, а для получения векторного представления текста – TF-IDF. Такой выбор продиктован необходимостью соблюсти баланс между вычислительной мощностью и точностью. Оценка точности модели осуществлялась кросс-валидацией с разбиением данных методом k-Fold и составила в среднем 99.962%.
Загрузки
Опубликован
Выпуск
Раздел
Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.
Статьи журнала «Вестник Донецкого университета. Серия 04. Технические науки» находятся в открытом доступе и распространяются в соответствии с условиями Лицензионного Договора с Донецким Государственным университетом, который бесплатно предоставляет авторам неограниченное распространение и самостоятельное архивирование.





