İstenmeyen SMS Filtrelemede Terim Ağırlıklandırma

DOGAN, TURGUT

doi:10.35377/saucis.03.03.735463

İstenmeyen SMS Filtrelemede Terim Ağırlıklandırma

DOGAN T.

Sakarya University Journal of Computer and Information Sciences (Online), cilt.3, sa.3, ss.239-249, 2020 (TRDizin)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 3 Sayı: 3
Basım Tarihi: 2020
Doi Numarası: 10.35377/saucis.03.03.735463
Dergi Adı: Sakarya University Journal of Computer and Information Sciences (Online)
Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM)
Sayfa Sayıları: ss.239-249
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Trakya Üniversitesi Adresli: Evet

Teknolojideki hızlı gelişmeler, mobil telefonların sayısını arttırmış ve kısa mesaj hizmetlerinin (SMS) kullanımını yaygın hale getirmiştir. Bu durum, istenmeyen SMS sayılarını da dramatik bir biçimde arttırmış ve bu tip mesajların belirlenmesi veya filtrelenmesinin önemini arttırmıştır. Ayrıca, kullanıcıların kişisel bilgilerini çalma riski de taşıyabilecekleri için, istenmeyen SMS’lerin filtrelenmesi problemi günümüzde bilgi ve veri güvenliği açısından da popülerliğini korumaktadır. Bu çalışmada, bu probleme yönelik olarak, istenmeyen ve meşru olarak iki sınıfa kategorilendirilmiş SMS mesajlarını içeren üç farklı SMS mesaj veri seti üzerinde 5 farklı popüler terim ağırlıklandırma yönteminin sınıflandırma performansıları iki popüler sınıflandırıcı yardımıyla kıyaslanmıştır. Elde edilen sonuçlar; istenmeyen SMS belirleme performansında; SMS içeriklerinin makul bir biçimde ağırlıklandırılmasının önemli bir rol oynadığını göstermiştir. Diğer taraftan, özellikle Türkçe ve İngilizce SMS mesaj verisetleri üzerinde terim ağırlıklandırma şemalarının sahip oldukları potansiyel sınıflandırma performanslarınının elli ve üzeri terim kullanılarak yapılan deneylerde daha iyi yansıtılabildiği ifade edilebilir. Ayrıca Türkçe SMS mesaj veri seti üzerinde terim ağırlıklandırma yöntemlerinden elde edilen sınıflandırma sonuçlarının değer aralıklarının, İngilizce SMS mesaj verisetlerinde elde edilenlere nazaran daha geniş olduğu da gözlenmiştir.

Due to rapid development of the technology, the usage of mobile telephones and short message services (SMS)have become widespread. Thus, the number of spam SMS messages has dramatically increased and thesignificance of identifying and filtering of suchlike messages raised. Moreover, since they have also risk to stealusers’ personal information; the problem of identifying and filtering of Spam SMS messages stays popular in termsof also information and data security. In this study, the classification performances of five different term weightingmethods on three different datasets containing SMS messages categorized as Spam and legitimate are comparedby using two classifiers for corresponding problem. The results obtained showed that reasonable weighting ofSMS contents plays an important role in identifying of spam SMS messages. On the other hand, it can be expressedthat real classification potential of term weighting schemes reflected betterly the with feature vectors created byusing fifty and higher number of terms on especially Turkish and English SMS message datasets. In addition, ithas been observed that value ranges of the classification results of obtained from term weighting methods onTurkish SMS message dataset is wider for than ones obtained in English SMS message datasets.