首页 > 文章中心 > 垃圾短信英文

垃圾短信英文

垃圾短信英文

垃圾短信英文范文第1篇

垃圾短信概念在我国尚处探讨中,学界目前主要有以下几种观点:

一是认为垃圾短信指没有经过接受者同意的其内容具有违法性或者具有广告性的侵害接受者合法权益的短信息。

二是认为垃圾短信指未经接受者同意,包含违背法律法规规定或具有广告信息内容的或以恶意报复他人为目的、侵害接受者通信自由、生活安宁或违背社会善良风俗的手机短信息。

三是认为垃圾短信指对接受者没有价值的短信息,包括两大类内容:一类是明显违法的不良信息,另一类是真假难辨的商业广告。

四是认为垃圾短信指信件发送人以商业或者其他目的,没有经过收件人请求或者允许,而向收件人发送的对收件人没有价值且有危害的信息。

笔者将垃圾短信定义为:垃圾短信是指对接收者没有价值的信息。垃圾短信对接收者没有价值,却侵害了接收者的权利或利益,因而应受到法律的规制。

二、我国治理垃圾短信的现状及缺陷

根据信息产业部的统计,2006年,中国手机短信发送量接近4300亿条,比上年增长41%。以最低每条短信0.1元计算,我国短信行业的市场收入已超过了400亿元,成为名副其实的“拇指经济”。然而,社会上也有一些非法之徒利用垃圾短信进行如诈骗等多种违法犯罪行为,给社会造成极为恶劣的影响。

实践中行政机关和司法机关多利用现有法律对垃圾短信进行规制,起到了一定的治理效果,但仍存在很多问题,主要原因有:

1.我国对垃圾短信目前仍没有一个较为权威的界定,导致行政、司法机关在处理案件时要么任意扩大法律解释,要么对其放任,无论哪种情形都不利于垃圾短信的治理。

2.对垃圾短信的法律治理目前基本可通过现行法律进行规制,但这些法律主要是对传统问题的处理,因而在治理垃圾短信时面临法律解释的困难。法律的缺失是垃圾短信泛滥的根本原因。

3.个人信息立法欠缺。手机号码作为个人的重要信息有保护的必要,而我国目前对个人信息保护基本无法律规定。

三、国外治理垃圾短信的措施

1.一些国家规定,消费者购买手机时必须出示身份证,由售货员将顾客的身份证号码、住址等输入电信运营商的中心数据库。当手机用户发送信息时,电信系统的存储单元中会留下发送方的手机号码,并能据此查到该发送人的名字、地址等信息,如美国、韩国。

2.有些国家允许广告商发送手机短信广告,但对该行为进行必要的规制。如短信广告必须写明“广告”字样,且商家在每天晚9时至第二天上午8时之间不得发送短信广告,如德国、韩国。

3.印度要求电信运营商每年提交关于阻止垃圾短信传播的正式书面报告。如果发现某一用户成为大量垃圾短信的集中地,便将其列入“黑名单”,取消其手机入网资格。此外,电信运营商还可采用关键词屏蔽过滤、禁止大规模群发服务等手段,堵塞垃圾短信的传播渠道。

4.英国在2003年立法中将兜售产品的垃圾信息视为一种犯罪行为。商业公司在使用个人信息如电子邮件地址和手机号码之前,必须得到允许。一旦违规,散播者在地方法庭最高可能被罚款5000英镑,在有陪审团出席的法庭,罚款数额没有限制。

四、完善我国垃圾短信的法律规制

通过借鉴国外立法经验,并结合我国具体国情,笔者认为完善我国垃圾短信的法律规制应主要从以下几个方面入手:

1.赋予相关主体必要的义务

(1)基础运营商。垃圾短信的标准在短信接收者的心中,因而基础运营商不应有过滤垃圾短信的权利和义务。如果赋予基础运营商事前过滤权利(或曰义务)可能会侵害他人的通信自由和通信秘密。当然,基于基础运营商的特殊市场地位,其应承担一定的义务,主要包括,提供一定的技术帮助接收者对付垃圾短信,保守消费者个人信息,协助有关机关处理垃圾短信等。

(2)增值服务商。通过中央电视台“3·15”晚会曝光发现,垃圾短信产生的最大源头在于增值服务运营商。笔者认为对于增值服务商的治理可借鉴贵州移动的措施。贵州移动与合作的信息服务接入商签订责任书,要求信息服务接入商未经客户允许,不得擅自发送商业广告,不允许发送色情等违法有害信息,如信息服务接入商违反该约定,贵州移动有权将其业务线端口关闭,终止合作。

(3)短信发送者。对垃圾短信发送者的规制可借鉴国外方式:广告商在手机短信广告时,必须注明“广告”字样和发送者的单位及手机号码。如果手机用户不愿意接受该信息,所产生的电话费将由广告发送者承担。同时,商家在每天晚9时至第二天上午8时之间不得发送短信广告。

(4)短信接收者。短信接收者在垃圾短信的认定问题上起到无可替代的重要作用。同时短信接收者还负有积极举报垃圾短信的义务。

2.实行手机实名制

治理垃圾短信的技术措施中最重要的是手机号码实名制。消费者在购买手机号时应出示身份证,由销售者将这些信息发送到电信运营商的中心数据库。此外,为顺应未来电信网和互联网网络相互连接的趋势,可借鉴韩国的措施,对手机邮件采用实名制。

3.完善我国现有的民法规定

笔者认为通过完善我国现有法律规定足以对垃圾短信问题进行有效治理。切勿来一个问题就做一个专门立法,这将不利于人们对于法律的了解,也极易导致法律之间的冲突。充分利用现有法律是首选,同时应结合垃圾短信的特征适时做出法律调整。

4.尽早对个人信息进行立法保护

个人信息保护的缺失使得受害人无法寻求法律救济,进而造成垃圾短信制造者和者有恃无恐。针对这种情况,有必要对手机号码等个人信息进行立法保护,以限制这些组织未经手机用户同意擅自公布其手机号码及其他信息。

5.完善垃圾短信的刑法治理

从表现形式看,有些垃圾短信可构成犯罪,如短信,尤其是是视频短信,如大量的在普通公众中传播,根据刑法规定,可构成传播物品罪。对于垃圾短信的刑法治理,应根据垃圾短信的表现形式、内容等不同,具体确定其行为性质,以达到有效治理的目的。

参考文献:

[1]唐庆冬,刘蔚.浅谈垃圾短信的法律治理.法制与经济,2006,(13).

[2]王丽萍.我国垃圾短信的法律分析及防范策略.湖南税务高等专科学校学报,2006,(3).

[3]郑淑荣.斩断垃圾短信黑手—国外整治垃圾短信启示录.中国电信业,2006,(7).

[4]吴仙桂.探析垃圾短信防治的法律问题.湖南认为科技学院学报,2006,(2).

垃圾短信英文范文第2篇

关键词 垃圾短信 缺陷 法律规制

垃圾短信问题随着手机在人们生活中的广泛应用而日益严重。2008年中央电视台“3・15”晚会上,垃圾短信问题受到了重点关注。

一、垃圾短信的概念

垃圾短信概念在我国尚处探讨中,学界目前主要有以下几种观点:

1.认为垃圾短信指没有经过接受者同意的其内容具有违法性或者具有广告性的侵害接受者合法权益的短信息。

2.认为垃圾短信指未经接受者同意,包含违背法律法规规定或具有广告信息内容的或以恶意报复他人为目的、侵害接受者通信自由、生活安宁或违背社会善良风俗的手机短信息。

3.认为垃圾短信指对接受者没有价值的短信息,包括两大类内容:一类是明显违法的不良信息,另一类是真假难辨的商业广告。

笔者将垃圾短信定义为:垃圾短信是指对接收者没有价值的信息。垃圾短信对接收者没有价值,却侵害了接收者的权利或利益,因而应受到法律的规制。

二、我国治理垃圾短信的现状及缺陷

根据信息产业部的统计,2006年,中国手机短信发送量接近4300亿条,比上年增长41%。以最低每条短信0.1元计算,我国短信行业的市场收入已超过了400亿元,成为名副其实的“拇指经济”。 然而,社会上也有一些非法之徒利用垃圾短信进行如诈骗等多种违法犯罪行为,给社会造成极为恶劣的影响。

实践中行政机关和司法机关多利用现有法律对垃圾短信进行规制,起到了一定的治理效果,但仍存在很多问题,主要原因有:

1.我国对垃圾短信目前仍没有一个较为权威的界定,导致行政、司法机关在处理案件时要么任意扩大法律解释,要么对其放任,无论哪种情形都不利于垃圾短信的治理。

2.对垃圾短信的法律治理目前基本可通过现行法律进行规制,但这些法律主要是对传统问题的处理,因而在治理垃圾短信时面临法律解释的困难。法律的缺失是垃圾短信泛滥的根本原因。

3.个人信息立法欠缺。手机号码作为个人的重要信息有保护的必要,而我国目前对个人信息保护基本无法律规定。

三、国外治理垃圾短信的措施

1.一些国家规定,消费者购买手机时必须出示身份证,由售货员将顾客的身份证号码、住址等输入电信运营商的中心数据库。当手机用户发送信息时,电信系统的存储单元中会留下发送方的手机号码,并能据此查到该发送人的名字、地址等信息,如美国、韩国。

2.有些国家允许广告商发送手机短信广告,但对该行为进行必要的规制。如短信广告必须写明“广告”字样,且商家在每天晚9时至第二天上午8时之间不得发送短信广告,如德国、韩国。

3.印度要求电信运营商每年提交关于阻止垃圾短信传播的正式书面报告。如果发现某一用户成为大量垃圾短信的集中地,便将其列入“黑名单”,取消其手机入网资格。此外,电信运营商还可采用关键词屏蔽过滤、禁止大规模群发服务等手段,堵塞垃圾短信的传播渠道。

四、完善我国垃圾短信的法律规制

通过借鉴国外立法经验,并结合我国具体国情,笔者认为完善我国垃圾短信的法律规制应主要从以下几个方面入手:

(一)赋予相关主体必要的义务

1.基础运营商。垃圾短信的标准在短信接收者的心中,因而基础运营商不应有过滤垃圾短信的权利和义务。基于基础运营商的特殊市场地位,其应承担一定的义务,主要包括,提供一定的技术帮助接收者对付垃圾短信,保守消费者个人信息,协助有关机关处理垃圾短信等。

2.增值服务商。通过中央电视台“3・15”晚会曝光发现,垃圾短信产生的最大源头在于增值服务运营商。笔者认为对于增值服务商的治理可借鉴贵州移动的措施。

3.短信发送者。对垃圾短信发送者的规制可借鉴国外方式:广告商在手机短信广告时,必须注明“广告”字样和发送者的单位及手机号码。如果手机用户不愿意接受该信息,所产生的电话费将由广告发送者承担。同时,商家在每天晚9时至第二天上午8时之间不得发送短信广告。

(二)实行手机实名制

治理垃圾短信的技术措施中最重要的是手机号码实名制。消费者在购买手机号时应出示身份证,由销售者将这些信息发送到电信运营商的中心数据库。此外,为顺应未来电信网和互联网网络相互连接的趋势,可借鉴韩国的措施,对手机邮件采用实名制。

(三)完善我国现有的民法规定

笔者认为通过完善我国现有法律规定足以对垃圾短信问题进行有效治理。切勿来一个问题就做一个专门立法,这将不利于人们对于法律的了解,也极易导致法律之间的冲突。充分利用现有法律是首选,同时应结合垃圾短信的特征适时做出法律调整。

(四)完善垃圾短信的刑法治理

从表现形式看,有些垃圾短信可构成犯罪,如短信,尤其是是视频短信,如大量的在普通公众中传播,根据刑法规定,可构成传播物品罪。对于垃圾短信的刑法治理,应根据垃圾短信的表现形式、内容等不同,具体确定其行为性质,以达到有效治理的目的。

参考文献:

[1]唐庆冬,刘蔚.浅谈垃圾短信的法律治理.法制与经济,2006,(13).

[2]王丽萍.我国垃圾短信的法律分析及防范策略.湖南税务高等专科学校学报, 2006,(3).

[3]郑淑荣.斩断垃圾短信黑手―国外整治垃圾短信启示录.中国电信业, 2006,(7).

[4]吴仙桂.探析垃圾短信防治的法律问题.湖南认为科技学院学报,2006,(2).

垃圾短信英文范文第3篇

蓝色(blue) 给人一种宁静和清凉的感觉,人们喜欢蓝天之蓝,也欣赏海水之蓝。蓝天白云能给人无限的遐想,而孔雀之蓝给人一种典雅之美感,深海中的一袭深蓝色的鸳鸯鱼给人一种深邃之美的视觉享受。

然而在英语中含有blue的短语并非都是褒奖赞誉之词,如feel blue(心情抑郁),black and blue(鼻青脸肿),所以语言的魅力正是展现于此。下面我们来看看几例含有blue的英语句子。

1. Jane doesn’t want to go out. Since her boyfriend left her she’s been feeling blue. (简不愿出去。自从她男朋友甩掉她之后,她的心情一直不好)

2. My father often tells me“Don’t feel blue. Life is short, have some fun!” (父亲常对我说“生命短暂,何必苦了自己,只要快乐就好!”)

3. All of the villagers didn’t feel blue after the flood and they threw themselves to rebuild their houses again. (洪水之后全体村民没有陷入悲伤之中,而是全身心地投入到重建家园的工作之中)

除了上面提到的feel blue和black and blue之外,英语中还有一些含有blue的俗语,如英美人和你交谈时说了“something will happen until you’re blue in the face”这么一句话时,他表示的是一种厌烦或一种无法忍受的心情。请看下例:

1. Angrily, John shouted loudly, “You can talk until you’re blue in the face. You are not my boss and I’m not going to follow your orders!” With the words, he left the manager’s office, shutting the door heavily. (约翰怒气冲冲地大声嚷道,“你这么尖酸刻薄地对待我有很长时间了。够了,你又不是我的老板,我不会再听你的指手画脚的了。”说完,他重重地带上门走出了经理办公室)

2. Why does your manager shout at you both until he’s blue in the face?(为什么你们经理总是这样冷酷无情地呵斥你们俩?)

据有关文献记载,大凡蓝色的鸟类(蓝孔雀、鸳鸯)或鱼类(鸳鸯鱼[深海鱼])一般而言比较娇贵难伺候。同时这种蓝色的动物物种也比较少见,动物学家通常把这类动物描述成是能引起人们幻觉和想象的物种其主要原因是归因于他们这种非同寻常的颜色。因此英语中blue(抑郁;面色发青)想必与此也不无关系。

10. Turn the page (开始新生活)

现在的社会,随着科学技术的发展,我们的阅读方式发生了一些变化,尤其是数码技术的发展,完全改变了我们的原有的阅读习惯,从纸质的阅读方式转向了电子阅读。也就是人们常说从读书(reading)到电子阅读(e-reading),这种变化实际上造成了阅读和获取信息方式和本质发生了较大的变化。虽然电子阅读(e-reading)看似给人们带来了阅读便利,然而却带走了那种传统阅读的一种深沉的思维方式。

我们中国人在表示一个人想摆脱原先的不幸重新选择自己的生活时,常说“翻开人生的新的一页”或“开始新生活”,在英语中也有类似表达,尤其是在美国,这个短语就是(turn the page)。请看下例:

1. My neighbour, Carmen, coming from Spain, cried a lot during her divorce. When it was over, she decided to turn the page and start partying again. (我的邻居,卡门,她来自西班牙,离婚期间伤心了很久。过了这段痛苦期之后,她决定振作起来开始新生活,又开始参加各类晚会了)

2. The president of the company told all the clerks the most difficult time was over and asked them to turn the page and work for the redevelopment of the company. (公司总裁对所有员工说公司最苦难的时期已经过去了,并要求全体员工全策全力,为公司的重新腾飞努力工作)

3. “Never lose heart and turn the page. Do what you are willing to and keep it on! I am sure you can make it into being!” Jason’s tutor, Professor Wallace confirmed him. (“绝不气馁,重新上路,做你自己愿意做的事,坚持下去!相信你一定会成功!”杰森的导师,华莱士教授安慰他说)

在英语中还有一个含有page这个词的短语,但其意思却与turn the page完全不同,若不注意是极易混淆的。这个英语俗语就是“to be on the same page”,其意思是“想法一致”,“观点一致”和“齐心协力”。请看下例:

1. The manager, Mr. Doolittle, organised a meeting as soon as he started in the new post. He wanted to make sure everybody was on the same page. (经理,杜利特先生一上任就立马召开一个会议。他想知道大家的想法是否一致)

2. I was told that a family can enjoy a happy life if every member is on the same page when I was young. (小时候我就知道“家和万事兴”这个道理)

这个俗语的流行,说起来有点无厘头,与最近的一件趣事有点关联。据2012年的《吉尼斯纪录大全》记载:2012年2月27日阿联酋的穆哈德国际集团公司在迪拜出了一本重达1500公斤的书,共有429页,该书长8.09米,宽为5米。这件事又不禁使人想起世界上曾经有过只有小指头那么大小的书籍――圣经,也有过手指大小的古兰经。在我国科举考试历史上也曾经流行过作弊用的这么大小的书稿本。当然这些还不算小,最令人惊奇的是在米粒上雕刻的书籍。

11. Junk mail (垃圾邮件)

在我们现实生活中经常会碰到让人不愉快的事情。无论你是悠闲漫步在街上,总会有人朝你手里发送一些你根本就不想要的广告单,不一会你也会发现路边的垃圾桶里就会躺下许多广告单;每当你打开自家报箱时,也会发现许多广告单和广告信件一本正经地立在里面;每次打开电脑,你肯定会看到无数不知名的邮件,如推销邮件、广告邮件和一些带有病毒的色情邮件飞到你的邮箱,而且占用你大量的邮箱空间,这些现象可谓是令人烦恼无比。这些我们统称为“垃圾邮件”。在英语中,人们对这些不期而至又没有任何意义的邮件称之为“junk mail”。 请看下例:

1. Why does no one send me real letters anymore?All I ever receive is junk mail now!

(为什么没人给我发任何有意义的信件呢?我现在所收到都是垃圾邮件!)

2. When Alice checked her email last night there were 35 items of junk mail advertising all kinds of weird things. (当爱丽丝昨晚检查她的邮件时,发现有35封乱七八糟的广告邮件)

3. It takes me a lot of time to delete so many junk mails every day when I check my emails at work. (每天上班打开邮箱时,总是要花费大量时间删除那些海量的垃圾邮件)

除了上面的“junk mail”之外,英语中对不健康的食品或某些快餐,如汉堡包、热狗和速食面的描述为“junk food”(垃圾食品)。请看下例:

1. You do need to stop eating so much junk food. Actually, you’re 12kg heavier than you were 3 months ago. (你真的不能再吃那么多的垃圾食品了。实际上,你现在比三个月前增加了12 公斤)

2. Nowadays most young people are living an unhealthy life. They have to enjoy junk food like hamburger, hotdogs and fast noodle with great pressure of their work. (如今大部分年轻人过着一种非健康的生活方式。由于工作巨大压力,只好吃汉堡包、热狗和速食面等垃圾食品)

如今世界各地的邮政局和电信局都遭遇着一种尴尬,邮政局业务量锐减,如人们现在很少相互写信和拍电报,所以,邮件服务除了极少数私人信件之外,几乎都是一些公函,印刷品信件的业务,而其中绝大部分都是广告信件,目前邮政除了快递业务量有所上升,其他业务量均在下降。电信系统也是如此,网络邮件充斥大量广告邮件,这些垃圾邮件(junk mail)就大行其道的现象给人们的正常生活带来诸多不便。据有关资料统计,世界上每人一年收到的垃圾邮件高达36封,而电子垃圾邮件就数不胜数,远远不止这个数字。

垃圾短信英文范文第4篇

关键词:朴素贝叶斯;垃圾短信;短信过滤

中图分类号:TP302文献标识码:A文章编号:1009-3044(2008)32-1178-03

Design of Chinese SMS Spam Filtering System Based on the Naive Bayes

MOU Xiao-guang1, GONG Li-ning2

(1.Library, Qingdao Agricultural University, Qingdao 266109, China; work Center, Qingdao Agricultural University, Qingdao 266109, China)

Abstract: The Chinese word segmentation algorithm and the Naive Bayes algorithm are introduced into the tradition of SMS spam filtering system, it has a self-learning ability to overcome the defects of artificial setup of traditional spam SMS system , impossible adaptability to the changes in the content of the SMS and the high rate of miscarriage of justice. Practice has proved that the message filtering system has high accuracy and adaptability.

Key words: naive bayes; SMS spam; SMS filtering

1 引言

手机短信以其“短、快、新、奇”的模式已经成为人们一种非常重要的通讯方式,然而我们在享受短信给我们带来的便捷的同时,也不得不面对垃圾短信骚扰的无奈。据调查统计,2007年上半年,每位手机用户平均每周收到8.29条垃圾短信[1]。垃圾短信的无处不在,已经成为了电信系统的顽疾,给正在蓬勃发展的移动通信业带来了极大的负面影响。

目前实现垃圾短信的监控和过滤主要有两种机制,即内容关键字过滤机制和号码黑名单机制[2]。其中,内容关键字过滤机制中的关键字内容主要依靠人工添加的方法来实现,尚无法实现自动添加;而号码黑名单的生成可分为手工添加、实时自动生成和准实时自动生成等方法实现。但这两种机制的缺点是实现方法呆板且防范数量有限,由于垃圾短信的形式在不断演化,垃圾短信的发送特征和内容也在不断变化,为适应这种变化,必须研发新的垃圾短信自适应过滤系统,以提高系统的智能化水平。本文设计并实现了一个基于朴素贝叶斯的自适应垃圾短信过滤系统,将贝叶斯分类和中文分词技术引入垃圾短信过滤中,并将分析结果及时反馈给在线垃圾短信过滤系统,使系统具有更好的自适应性和较高的智能化水平。

2 朴素贝叶斯分类算法

目前著名的文本分类方法有Bayes、LLSF、SVM、KNN、决策树等[3]。贝叶斯(Bayes)分类方法是一种最常用的有指导的方法,以贝叶斯定理为理论基础,是一种在已知先验概率与条件概率的情况下的模式识别方法。贝叶斯分类器分两种:一种是朴素贝叶斯分类器,它假设一个属性对给定类的影响独立于其他属性,即特征独立性假设。当假设成立时,与其他分类算法相比,朴素贝叶斯分类器是最精确的。但是,文本属性之间的依赖关系是可能存在的。另一种是贝叶斯网络分类器。可以考虑属性之间的依赖程度,其计算复杂度比朴素贝叶斯高得多,更能反映真实文本的情况。贝叶斯网络分类器实现十分复杂,目前还停留在理论的研究阶段。因此本系统采用朴素贝叶斯分类算法解决短信内容检测、分类问题。

朴素贝叶斯分类器假设特征对于给定类的影响独立于其它特征,即特征独立性假设。对文本分类来说,它假设各个单词Wi和Wj之间两两独立,其原理见图1。

设训练样本集分为k类(正常短信和垃圾短信),记为C={C1,C2 ,…,Ck},则每个类Ci的先验概率为P(Ci), i=1,2,…,k,其值为Ci类的样本数除以训练集总样本数n。对于新样本d,其属于Ci类的条件概率是P(d|Ci)。根据贝叶斯定理,Ci类的后验概率为P(Ci|d):

P(d)对于所有类均为常数,可以忽略,则式(1)简化为

P(Ci| d)∝P(d | Ci)P(Ci) (2)

为避免P(Ci)等于0,采用拉普阿斯概率估计:

式中:|C|为训练集中类的数目,|DCi|为训练集中属于类Ci的文档数,|DC|为训练集包含的总文档数。

在特殊情况下,训练样本集中各类样本数相等,此时分类的先验概率相等,式(2)可以简化:

P(Ci| d)∝P(d | Ci) (4)

朴素贝叶斯分类器将未知样本归于类的依据,如下:

P(Ci| d) =arg max{P(Cj| d)P(Cj)},j =1,2,…,k。 (5)

文档d由其包含的特征词表示,即d=(w1,…,wj,…,wm),m是d的特征词个数|d|,wj是第j个特征词,由特征独立性假设,则得

式中:P(wj|Ci)表示分类器预测单词wj在类Ci的文档中发生的概率。因此式(2)可转换为

为避免式(7)中P(wj|Ci)等于0,可以采用拉普拉斯概率估计。有两种方法计算P(wj|Ci),即文档型计算公式和词频型计算公式。

1)文档型:不考虑单词在文档中的出现频次,仅考虑单词在文档中是否出现,0表示未出现,1表示出现,依式(8)计算:

式中:N(doc(wj)|Ci)为Ci类文本中出现特征wj的文本数。

2)词频型:考虑单词在文档中出现的频次,依式(9)计算:

式中:|V|表示特征词表中总单词数,TF(wj,Ci)表示单词wj在类Ci的所有文档中出现的频次之和。

3 中文分词算法

决定任何一条短信内容的关键是短信中所含的实意词,如果能够准确地把能表达短信内容的实意词提取出来,那么就可以基本准确地把握短信的特征,并根据这些特征来判断这条短信是否属于垃圾短信。然而,对于一条正常的短信,我们很少用诸如 “*”“¥”“$”等特殊符号,但这些特殊符号往往正是垃圾短信的共同特征。垃圾短信用这些符号一是为了引起收件人的注意,二是为了躲避基于规则的过滤算法的过滤。针对这种情况,在中文分词过程中我们首先对新收到的短信内容进行特殊字符的过滤,然后再对过滤后的短信内容进行分词,从而最终提取短信中的关键词。

目前流行的中文分词法有:最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法等[4]。在本系统中我们使用双向最大匹配分词法对短信内容进行分词,它的优点是高纠错率和高歧义分析能力。双向最大匹配分词法的基本方法是将正向最大匹配法的结果和逆向最大匹配法的结果进行比较,一致的切分结果认为是正确的,不一致的切分结果则采用上下文相关信息选取一种分词方法。

基本流程如下:

1)读入文本数据作为匹配算法的词典;(本系统采用新华字典1995年版)

2)对输入的句子做正向最大匹配分词,切分好的句子为MMSentence;

3)对输入的句子做逆向最大匹配分词,切分好的句子为RMMSentence;

4)比较MMSentence和RMMSentence,一致则输出正确的切分,不一致则采用上下文相关信息选取一种分词方法。

如果S′代表一个中文文本中的一个字符串,设词表中最大词长为MaxWordLength,则正向最大匹配算法可描述如下:

1)待切分的汉字串S,已切分的汉字串S′(S′初始为空串);

2)如果S为空串,转(6);

3)从S左边复制一个子串w作为候选词,w尽可能长,但长度不超过MaxWordLength(词表中的最大词长);

4)如果在词表中能找到w,或者w的长度为2,那么将w和一个词界标记一起加到S′右边,并且从S左边去掉w,转(2);

5)去掉w中最后一个汉字,转(4);

6)结束,输出S′。

逆向最大匹配法的具体方法与正向最大匹配法类似,只是取子串w是在句末进行,每次匹配不成功时,去掉汉字串前面的一个字。

4系统设计

本文系统的基本思路是,实时提取短信的相关信息及内容,并将其反馈给在线过滤系统,通过黑白名单及非法关键字预处理、短信内容中文分词以及贝叶斯分类统计,以达到准确和智能过滤垃圾短信的目的。在线过滤系统包括三个模块:短信预处理模块、自动分词模块和贝叶斯分类模块。系统架构如图2所示。

在线过滤系统的处理流程如下:1)实时接收从短消息中心发送的短消息信息并放入短信缓冲区内保存。由于短消息过滤系统处理过程与短消息接收存在时差,实时短消息过滤会产生拥塞,缓冲区的使用可以保证短消息的及时接受以及避免拥塞现象的出现。2)短信预处理模块,在该模块中会存放预先定义的好的手机黑白名单以及非法关键字,这些黑白名单和关键字都是人为手工添加,当短消息的发送方或接受方的手机号码存在于手机黑名单中,或者当短消息含有预定义的非法关键字时,该短消息将被定义为垃圾短消息,并被放入垃圾短信数据库中。3)中文分词模块,其主要任务是将短消息内容进行中英文分词。该模块首先剔除短消息中与内容无关的特殊字符,例如:“本*公*司*代*售*各*种*发*票*……”中的“*”符号。再按双向最大分词法将内容转化为包含基本语义单位组成的关键字表列。4)贝叶斯分类模块,利用贝叶斯将统计出的正常短信和垃圾短信特征概率,并将关键词的分类,词频高的反馈更新在线过滤系统关键词库,系统设置一个阈值,综合评价函数根据计算得到垃圾短信特征的值,跟阈值比较,如果大于这个阈值说明是正常短信,反之小于则是垃圾短信。

5 结论

本文在传统垃圾短信过滤系统的基础上引入了中文分词算法和朴素贝叶斯算法。传统垃圾短信系统的内容过滤需要人工设置,不仅无法适应短信内容的变化和短信形式的多样,而且误判率高,维护困难。新系统的内容过滤采用了朴素贝叶斯算法,具有自学习和更新能力,因此它能克服传统过滤系统容易过时的问题,降低了短信误判的风险。通过实验证明,该短信过滤系统具有较高的准确率。

参考文献:

[1] 黄日生.浅议垃圾短信之规制[J].通信与信息技术,2008,1(10):34-36.

[2] 潘文锋.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所,2004.

垃圾短信英文范文第5篇

2000年以来,我国相继颁布了《全国人民代表大会常务委员会关于维护互联网安全的决定》、《互联网信息服务管理办法》、《互联网站从事登载新闻业务管理暂行规定》、《互联网电子公告服务管理规定》、《关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》等一系列法律、法规。2003年8月1日,开始正式实施《互联网出版管理暂行规定》,但这仅是建立网络媒体法制框架的开端。

一、网络媒体资格的认定与监管

按照《互联网站从事登载新闻业务管理暂行规定》和学术界相关研究,我国网络媒体大体上可分为新闻单位建立的新闻网站,如人民日报的人民网、中央电视台的央视国际网站;非新闻单位的综合性网站,如商业网站新浪网、雅虎、网易等,后者不得登载自行采写的新闻和其他来源的新闻。

互联网是一个高度开放和相互链接的传播平台。许多传统意义的新闻概念已不再适用于互联网。今天有许多人,尤其是青年人,往往不再从传统媒体上获得自己所需要的新闻。网络人群的细分化和社区化催生了与之相关的网站,许多社区网站(广义社区,包括各种专业网站、特殊群体网站)都在日复一日地刊载自己的社区新闻和转载新闻。甚至还有影响极大的个人网站。最近又开始流行We鄄blog(网络日记或搏客),在美军攻打伊拉克期间,一些民间组织的Weblog往访率很高,Weblog已经成为新闻写作的一种新式样。

无论在理论上或实际操作上,依靠政府部门来监管如此巨大的网络空间显然是不现实的,比较可行的办法是在分类管理的同时依靠社会中间组织和行业自律。虽然商业性网站以营利为目的,但同时也应当强调网站的社会责任。

扁平化的网络媒体监管方式不符合互联网的本质属性,同时也容易带来监管成本过高和难以操作的弊端,因此有必要探索可行的管理办法,依法构建各种类型的网络媒体中间组织和自律性行业规范,从而在政府与网络媒体之间搭建沟通渠道和桥梁。市场经济发达国家通常都有较健全的中间组织,中间组织可以在很大程度上减少监管的运行成本,并且能够有效地提高监管效率。

二、对网络媒体虚假信息和有害信息的管制

一些网络媒体为了提高点击率和Pageview数量,不惜代价地将虚假信息编发上网,今年最典型假新闻事例就是“比尔。盖茨被暗杀案”。“非典”疫情发作期间,通过网络传播和手机短信传播的谣言几乎无处不在,无人不晓。

真实是新闻的生命,这一点同样是网络媒体的生存之道,与传统媒体并无二样。但是一些网络媒体仍然不时地登载虚假信息,对此,法律和行政性法规虽然有禁止性规范,但缺乏可操作性,因此有关部门在立法时就注意增强法规的可操作性,对屡教不改的网站施以行政处罚或其他矫正措施。

有害信息比虚假信息危害更甚。众所周知,网络色情已经成为严重的社会公害。微软公司近日关闭了28个国家的聊天室,此举旨在制止儿童犯者的聊天表演。互联网过滤评估组织发现,儿童首次看到色情网页的平均年龄是11岁,研究还表明,在8~16岁的少儿中,90%的人曾观看过色情网页,这些儿童大部分是在做家庭作业时上线的。

作为典型的市场经济国家,美国规制网络色情活动的法律手段有:向消费者警示、制定保护儿童的相关法律和美国最高法院的相关判决。

2003年9月,美国联邦交易委员会向全美消费者发出网络色情信息警示。此后不久,该委员会又发出了消费者简要警示,要求消费者警惕文件交换软件和监控软件可能侵犯个人隐私。

在最新警告中,联邦交易委员会警告消费者不要再使用免费文件交换软件,消费者可能在不经意间下载经过伪装的色情内容。

美国国会在2000年通过了“儿童互联网保护法”,该法规定:为保护儿童免受色情骚扰,商业网站运营商必须明示网站色情内容。但由于公共图书馆和民权组织集团提出了法律诉讼,该法并未执行。

美国最高法院作出的判决说,儿童互联网保护法没有违反宪法第一修正案所保护的言论自由,因为图书馆有能力按任何成人读者的要求屏蔽过滤器。儿童互联网保护法要求图书馆安装过滤器,并以此作为图书馆接受联邦基金的条件。对此,法官说,这是对国会资助资源的有效执行。

我国网络媒体绝非一块净土,与国外的公众网站相比,我国一些商业媒体网站走的太远了。这些网站非但没有警示性文字,而且为了盈利大打色情牌,大肆散布色情网页和黄色手机短信。同时一些也没有公认的未成年人进入警示。迄今为止,网络色情内容没有任何收敛迹象。网络色情严重污染网络环境,事实和其他国家的经验证明,管制网络色情活动必须通过法律强制手段,这需要政府和消费者组织共同行动。

三、网络媒体抵制垃圾信息的法律责任

这里所说的垃圾信息包括垃圾电子邮件和垃圾手机短信。《中国互联网协会反垃圾邮件规范》对垃圾电邮的定义是,本规范所称垃圾邮件,包括下属属性的电子邮件:(一)收件人没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假信息源、发件人、路由等信息的电子邮件。事实上,这种排列式表述方式并不能穷尽垃圾电邮属性。

网络媒体当然不是垃圾信息的惟一发源地,但由于不少网络内容服务商同时是电子邮件服务商,加之电信运营商与短信服务提供商合作提供短信服务是当前普遍流行的服务模式,故不少网络媒体本身就是短信服务商,手机短信是它们的重要营业收入源。

电子邮件广告因成本低下( 有专家估算每封0.03美分,一百万封电子邮件仅需300美元费用),因而被广告商和广告客户看好,他们把电子邮件作为推销商品和服务的低成本竞争工具。据有关研究者估算,垃圾电邮已经占到网络流量的一半以上。2003年4月的一天,美国在线网站就屏蔽了24亿封垃圾电邮。

欧盟国家垃圾电邮近年来一直在不断地增长。2001年垃圾电邮仅占电邮总量的7%,到2002年即达到2996,2003年则超过了51%。垃圾电邮的发送成本已经超过了25亿欧元。关于垃圾邮件分类,据欧盟2003年6月统计,在垃圾电邮中,一般商品广告占37%、色情广告消息占24%、金融服务广告占12%。为制止垃圾电邮蔓延,欧盟各国最近通过了一项决议,规定从2003年10月底开始,欧盟各成员国将执行统一的反垃圾电子邮件法律。虽然有一些国家制定了反垃圾电邮法规,但是欧盟的全面禁止垃圾电邮法在世界上还是首次,欧盟所有成员国都同意了这项法令。基本内容是:在发送广告等电子邮件时,必须得到接收方事先同意;如果违反了此项规定,应由成员国制定相关法律予以惩罚。