好汉网

剽窃和反剽窃的对抗

时间:2008/11/12 8:46:57,点击:0

如今教育界剽窃行为日益猖獗，为何剽窃行为为何频频发生，屡禁不止呢，笔者将其归类于“双IS”原因分析。

1、I——Interest，学生对此学科缺乏兴趣，没有兴趣就很难有认真学习的动力。学生对专业缺乏兴趣根源于招生时服从学校调剂的较为僵硬的专业招生制度。大部分学生为了进好的大学放弃了自己有兴趣的专业。笔者最近调查的某专业班级39人中竟有36人是服从调剂而不得不学习这个专业的，他们剽窃论文的原因和缺乏兴趣有一定相关性。
2、S——Shortage，学生对论文所需的专业知识和能力的缺乏。老师以论文的方式作为考核，主要是希望学生通过自己的学习对专业知识进行评述和应用。但实际情况却很令人担忧，对专业知识和能力的缺乏，使他们根本对论无法找到合理的系统的结构，更不能分模块进行论文写作，只能铤而走险通过剽窃以应付老师的考核。
3、I——Illegibility，学生对于剽窃的评判标准不清楚。如：连续多少个字或者词语相同就可认定为剽窃呢，或者某个代码结构相似到何种程度就可以判定为剽窃。有些将整合多篇文章形成自己的论文，造成了结构和主要学术观点的剽窃。在这个方面，学术界未能出台准确的操作标准明确划分剽窃与参考，这也给学生区别两者造成难度。
4、S——Supervisal，学生对论文从选题到完成的整个过程的时间管理较差。多数大学生没有合理的管理、规范和分配自己的时间。如老师布置需要一个月才可以完成的作业，几乎所有的学生都是在临近要交作业的时候才开始准备，但是当其真正的投入时才发现作业的工作量很大，短短几天的时间根本无法完成，于是采用剽窃的方式完成。与此同时，老师由于自身科研和教学计划繁重，不可能对每位学生的论文过程实时追踪，对学生的管理并不强。

我们的工作进展
在反剽窃的工作中，我们根据国内情况，结合教学改革，借鉴国外理论，研发自有技术，从而达到降低学生剽窃率的目的。
一、基于学生剽窃的原因的分析，我们对现有的教学法进行改革，提出了基于网络的开放性实时追踪教学法，其中过程论文和学生自主寻找兴趣点的教学模式主要是针对日益严重的剽窃行为而展开的。过程论文不是现在广泛采用的提交论文完成稿的模式，而是实时追踪学生从论文选题、资料搜集、论文修改到论文定稿的整个过程。过程论文的方式不仅有利于防止虚假论文的出现，而且有利于教师实时追踪学生的学习动态，从而及时为学生提供帮助。这种方式可以解决“双IS”理论中的Shortage和Supervise，学生可以通过合理的自我管理调整专业知识结构。学生寻找自我兴趣点的教学模式，可以有效解决“Interest”的问题。学生可以在本学科的范围内，寻找自己的兴趣点，从而减少学生的被迫剽窃。
二、基于目前的国内外研究现状，笔者设计了反剽窃系统模型。
根据反剽窃模型，开发了网盗克星测试版，并做了此次剽窃抄袭的实证调查。该软件主要功能是批量提交作品，进行全文判断是否有抄袭部分，支持文档格式包括DOC、HTML、TXT等。该软件对于10页以下文档，检查速度较为良好，但文档篇幅过大，速度下降较为明显。与国外相比，尚处原型测试阶段，如要大规模使用，还需要进一步进行研发。

在设计原型和开发软件过程中，我们申请了两项国家发明专利，基于计算机网络的防转载和反剽窃监控方法（专利申请号：200610019074.5），申请时间2006年5月16日；能加快反剽窃或转载文档检测速度的方法（专利申请号200610166577.5）,申请时间：2006年12月31日。前者主要解决反剽窃的系统框架问题，实现对互联网和文献库中剽窃信息提取并不定期发布给用户。第二项专利主要依据在反剽窃研究中发现的格式遗留现象，改进字符串匹配算法，提高文档格式的反剽窃查找速度。
剽窃抄袭的实证调查
近年笔者所授计算机学科的相关课程的开放式命题的学生和教师培训课程论文电子邮件附件及正文，共783篇，含301篇Word文档，401篇网页邮件，81篇PDF文档，含所有文档的OutLook.pst文档大小约355MB。通过软件分析，结论如下：
类别全文剽窃段落剽窃结构剽窃未剽窃
数量 161 256 26 340
Doc 83 87 7 124
Html 59 151 3 188
Pdf 19 18 16 28
比例 20.4% 33.2% 3.0% 43.4%

通过上表可以看出，在未告知会有剽窃行为检查的情况下，有剽窃行为的学生超过了半数，可见学生的剽窃行为十分严重。在2007年下半年，我们告知学生会有反剽窃检查的情况下，剽窃情况降至16%左右。
在我们做的如何评价学生论文和作业反剽窃的技术保证问卷调查中，有47%的学生表示
确实起到了硬性督促自己的作用，对论文的写作也更加用心；有30%表示形成了与其不断拼凑论文的体力劳动，还不如进行创新型的脑力劳动的意识；有23%的学生表示很客观，对认真的学生很公平。
建议与结论
笔者认为，解决学生剽窃问题是一个系统的工程，靠任何的单方努力都不可能完成。在此问题上，我们应该社会、教师、学生三方努力。1、充分发挥社会的力量：首先中国教育界和学术界正视学生剽窃泛滥现象，高度重视反剽窃技术的研发和反剽窃系统的实施，参考西方学术界的一些做法，成立专门的学术道德技术委员会；借鉴国外较为成熟的反剽窃体制，逐步实现反剽窃工作的常态化，以达到反剽窃工作的彻底性和普遍性。其次，资源提供商可以在资源文件数据库中增加反剽窃模块，从技术上逐步实现剽窃行为检测的自动化。再次，各学术研究结构应增强反剽窃意识，人事部门以及人才培养单位对于毕业和科研论文的剽窃情况应增强检测意识和措施，以达到杀一儆百的效果。2、教师应吸收国外新的教学模式，结合学生的现状，及时变革教学法，培养学生对学科的兴趣，提高学生的创新力，降低学生的剽窃可能性。3、学生自身应该增强对剽窃的认知，不能利用剽窃与参考的模糊性作为剽窃的借口，选择自己的兴趣点以及深化对学科的认识，从而避免剽窃。
最后，针对现阶段的研究，我们将进一步推进软件原型的开发，增强软件的实用性和有效性。其次对软件进行大范围的测试，在时机成熟时，发布免费版本，以便更多需求者进行反剽窃的检测。再者对学生剽窃行为进行更深入的研究，总结剽窃行为的规律性，并应用到软件设计和开发中，实现反剽窃研究与软件开发的良性循环，从而使软件迈向更高的层次，逐步缩小同国外的差距。
本文发表于《中国教育网络》2008年第九期,有删节

沈阳1 傅惠鹃1周子轩2
（1武汉大学信息管理学院；2武汉大学计算机学院）

--------------------------------------------------------------------------------

论文剽窃检测系统说明
⑴.论文剽窃检测系统不能检查已发表文档，因为已发表的文档往往已经到处传播和引用开来。
⑵.论文剽窃检测系统的每检测400字需要6秒钟，一篇8000字的文档至少需要2分钟，需要一点点耐心。
⑶.论文剽窃检测系统检测结果存在误差，用更小的文档块进行检测，可以减少误差，但需要的时间会相应增加，经过我们在多家用户单位使用，块数大小定为200-400字较为合适，此时误差率也是可以接受的，文档相似率一般是比实际的要低。
⑷.如果某个相似块未显示，说明未检索到相似的文档。
⑹.论文剽窃检测系统后台数据库覆盖188亿个网页和490万篇论文。
⑺.论文剽窃检测系统检测文档不得超过1万字，如需要更长的文档支持，需要购买收费版。
⑻.当论文剽窃检测系统未能联网时，软件检测按钮将变虚。
欢迎提供反馈意见，我们将持续升级本软件。
我们的联系方式：runorsoft@163.com
我们的博客：http://hi.baidu.com/whusoft
——————————————————————–
论文剽窃检测系统是通过比对源文档和目标文档的相似性给出相似度结果的一种信息处理系统。由武汉大学信息管理学院出版科学系教师沈阳副教授研发的ROST 文档相似性检测工具可以有效检测论文的抄袭相似情况，经过两年的研发，终于推出了功能强劲的6.0版本，在定版过程中得到了武汉大学信息管理学院多位专家教授的宝贵意见。
目前ROST 论文剽窃检测系统6.0版已经投入多家单位进行使用，反应良好，最大程度地杜绝了有抄袭可能的论文发表问世。
ROST反剽窃系统的技术特点：
1．覆盖面广，覆盖约188亿个网页和490万篇论文。系统采用自研的ROST WebSpider算法实现了对互联网和期刊网的广度覆盖。
2．模糊检测，柔性匹配，不管抄袭者如何替换部分字符，删除部分标点符号，系统都能通过相似度来进行判定，让抄袭者无所遁形。系统采用自研的ROST Similar算法实现高速相似性检测和度量。系统采用自研的QingQing算法提取信息指纹，在P3、512MBPC上，分词速度为13MB/S，已在互联网提供评测版供业内评测。
3．引文及参考文献去除，使得误判的可能性降至最低。
4．分块检测机制，将文章的每一文本块与其他文档的相似度都精确的表示出来了，每一文本块约为200字至400字不等，以红色表示极度相似（相似度大于80%），一目了然，清晰醒目。
5．相似文档模块跟踪技术，可以通过简单操作直接定位相似文档模块位置，直观明了。
6．方便的结果分析功能，自动分析文档相似结果，给出评价意见。
7．支持多种文件格式的文档，包括PDF、DOC、PPT、XLS、TXT等文档。（PDF文件需另行安装ROST文件格式识别引擎）
8．可将分析结果进行存盘为专有数据文件，不用反复查找浪费时间。
9．应用范围广泛：可用于抄袭鉴定、科技查新、专利查新、引用查询、转载查询等多个领域，也可用于追查文献的流传图，绘制文献的传播发布路线。可以为多类学术机构、文献机构以及个人服务。
多年来，学术界的论文著作抄袭剽窃事件屡见不鲜，这是摆在我们面前的一个重大课题。目前多是靠偶然发现后，在书山文海中逐步查找，费力劳神，时效性差，工作量极大。为促进学术事业的健康发展，采用有效科学手段，发现和打击学术腐败，极有必要进行反剽窃和相似信息检测系统的研发和推广，提升刊物和出版单位的学术信誉，净化学术风气。目前国外已深刻认识到学术腐败对科技创新的危害性，也采取了切实有效的技术措施，对侵犯知识产权或违反学术道德的不端行为加以取证。而国内只有极少数专家从事反剽窃的技术与理论研究。武汉大学信息管理学院出版科学系推出的ROST反剽窃系统技术先进，功能实用，是守住学术道德底线的有效工具，能将用户的学术及经济风险降至最低。
研发人员还先后发现了剽窃省力、格式遗留、剽窃趋同、剽窃蔓延、剽窃习惯固定、相关引文剽窃等六种现象，总结了论文剽窃的主要方式，连续推出了三个原型系统，发表了《System of twice-gathering information and Research of information fingerprint Hashtrie》、《The Research of Anti-plagiarism Monitoring System Model》等4篇相关论文，申请了“基于计算机网络的防转载或/和反剽窃监控方法”（专利号：200610019074.5）、“能加快反剽窃或转载文档检测速度的方法”（专利号：200610166577.5）两项相关专利。