|
近年来,学术不端问题日趋严重,学术诚信问题已经引起政府和管理部门的高度重视。正如2009年3月15日,教育部长周济在高校学术风气建设座谈会上强调的———对学术不端行为要“零容忍”[1],浙江大学何海波学术不端事件相关责任人受到了中国高校和研究机构对类似论文造假行为最严厉的一次惩罚[2]。
科技期刊编辑部作为科技论文的第一道防线,如何在初审中过滤品质不佳,特别是有抄袭等恶劣学术不端行为的稿件,也引起了编辑工作者的广泛探讨[3-7]。王淑华[3]于2001年提出利用中国期刊网初审的方法。随着网络技术的迅猛发展,近年来各编辑部初审时也切实实践类似的网络审稿方法[6-7];然而,当文章数量成为学术成果的考核重要标准之一时,投稿量明显增加,人工逐篇进行数据库检索的工作量随之大大增加,并且难以发现多源抄袭等复杂的学术不端问题。“科技期刊学术不端文献检测系统”(AMLC)的面市无疑给这项工作带来了极大方便,很多编辑部开始使用该系统协助编辑人员对稿件进行初审。
AMLC是中国知网(CNKI)历经3年的研发成果,它以《中国学术文献网络出版总库》为全文比对数据库,可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献,并支持各刊自建比对库[8]。学术不端行为的认定是一个严肃的问题,这涉及举报人、被举报人以及科研基金资助单位的荣誉、利益等方方面面的问题;因此,对于不端行为的认定需要制订规范的程序,需要保证程序的公正[9]。2009年新疆部分高校引进AMLC的姊妹版本“学位论文学术不端行为检测系统“,用以检测毕业论文引发的争论[10],也提醒科技期刊编辑在使用AMLC时应正确看待系统的检测结果。
1 影响AMLC检测结果的要素
分析AMLC的工作流程可以看出影响检测结果的要素如下。
1)待检测文章。
①作者相同与否,直接决定有文字重合度的稿件是自抄、不当署名,还是抄袭,问题严重性自然不同。
②文章的可检测度。这里指文章文字居多,还是公式、图表居多,汉字多,还是外文多。由于目前AM-LC还不能有效检测公式、图表、外文,所以可检测部分的比例不同,检测结果与真实相似度的接近程度也不同。
③文章的格式。虽然系统支持. pdf、. caj、. doc、. txt等多种格式,但是,实际使用中发现,有时对不同格式的同一篇文章处理结果并不相同。
2)比对数据库。这是AMLC的基础与核心。完善的比对数据库必须全面、完整,及时更新。
3)检测指标。AMLC提供多种检测指标,包括文字复制比、最大段长、首部重合度、尾部重合度等。其中最直观的指标是文字复制比,这也可以算作系统提供的主要检测结果之一。
2 AMLC检测结果分析
下面对工作中使用AMLC辅助审稿时遇到的实际情况进行具体讨论,仅考虑研究内容已经符合刊物刊载范围的稿件,讨论的抄袭嫌疑不区分是抄袭别人还是自抄,并假设投稿承诺书中作者承诺稿件中已经正确标引他人工作、本稿相关内容也从未发表及已投他处。
考虑到在我国一般认为相似度>30%的稿件有抄袭嫌疑,而>50%的稿件有全篇抄袭的嫌疑;所以,相似度在30% ~50%范围内的稿件会被重点排查,而相似度<30%的稿件容易被直接通过, >50%的稿件又容易被直接拒稿。但实际情况比较复杂,不宜简单以检测数据来判定稿件抄袭与否。
2•1 文字复制比较低的稿件 是否文字复制比<30%,甚至标准更严格些, <25%的稿件就可以通过初审呢?
根据第1章的分析,相似度不高仅能代表比对数据库中没有与其文字重合度高的文章,可能的情况如下。
1)确实为具有独创性的好文章,可以通过初审。
2)没有直接抄袭他人语句,但也没有创新。比如文章内容为现有方法的直接应用,或者属于思想性抄袭,抄袭现象被很好地掩藏。对于简单的成熟方法直接应用型稿件,编辑根据自己的知识积累往往能发现其中的一部分,可以将其退稿 |