"原创的重要性 黑客派是一个注重原创内容分享和讨论的地方,这里不欢迎全文转载,即使是授权转载。 为了让“注重原创”这件事落地,我们上线了“原创系统”来对帖子进行原创性评分,分值越低原创性也越低: 10-50:基本是转载,灰色标识。这类内容在这里不受欢迎,并且有很大概率会被管理员删帖 60:大部分是转载,浅灰色标识。这类内 .."

原创系统上线

原创的重要性

黑客派是一个注重原创内容分享和讨论的地方,这里不欢迎全文转载,即使是授权转载。

为了让“注重原创”这件事落地,我们上线了“原创系统”来对帖子进行原创性评分,分值越低原创性也越低:

  1. 10-50:基本是转载,灰色标识。这类内容在这里不受欢迎,并且有很大概率会被管理员删帖
  2. 60:大部分是转载,浅灰色标识。这类内容大部分都是摘抄或是没有规范使用“引用”,在全局最新列表上的展现概率会受影响
  3. 70:少部分摘抄转载,绿色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版
  4. 80:极少部分摘抄,蓝色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版,是不错的原创内容
  5. 90:个别术语或短语摘抄,紫色标识。这类内容是很受欢迎的原创内容,会在社区内部以及外部推荐转发
  6. 100:完全原创,橙色标识。这类内容是最受欢迎的原创内容,排版优秀且具有很大价值

目前只有在超过 512 字符的情况下才会进入原创系统评分,短文或者简单的问答不会进行评分。

实现细节

原创性我们是通过搜索引擎后验实现评分判断的:

  1. 根据内容 HTML 提取若干段纯文本短句
  2. 将这些短句通过搜索引擎查询,结果排除站内索引,每个短句根据重复搜索引擎重复次数进行评分,其中搜索引擎收录时间和发帖时间的差值会作为一个重要的权重项
  3. 根据每个短句的评分得到该帖的平均原创评分

我们会不断调整原创系统的评分算法,大家可随时跟帖提建议。

黑客派绝不会成为一个内容农场(Content Farm),这里以后会有越来越多有价值的讨论。

  • 黑客派

    黑客派是 B3log 开源社区的线上论坛,这里主要汇聚了工程师和设计师。HacPai 分别取 Hacker / Painter 的头三个字母组成,源自《黑客与画家》

    271 引用 • 5478 回帖 • 814 关注
  • 原创
    39 引用 • 94 回帖 • 1 关注
  • 系统公告

    B3log 社区相关的重要公告,比如新特性上线,运营策略调整等。

    33 引用 • 3040 回帖 • 666 关注
感谢    关注    收藏    赞同    反对    举报    分享
优质回帖
  • KylinShaw 1 感谢    

    支持,现在烦死了 csdn,现在搜索一个问题,csdn 上各种转载,点开好几个都是相同的内容,没有一点意义。

43 回帖    
请输入回帖内容...
  • jeffjade 1 感谢        

    哎哟,又一个很棒的功能;抽空我要发帖评测下看看。

    感谢    赞同    反对    举报    分享       回复
  • caijunyi 1 感谢        

    支持 d 大

    感谢    赞同    反对    举报    分享       回复
  • YxxXlv0COaxl 1 感谢      

    首先就建议一下, 应该把原创指数显示在帖子的最上方位置, 既然标识出来就应该稍微突出一下, 增加辨识度.

    同时为了增加辨识度, 原创性高的, 可以在帖子列表中着重标识出来,

    感谢    赞同    反对    举报    分享       回复
  • YxxXlv0COaxl    

    你用百度不靠谱啊
    这篇竟然是百分百原创💢 ❓
    机器学习经典论文 站内 站外

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • zwxbest 1 感谢        

    10-50 分的文章是不是可以不用同步过来了。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    会继续调整的 😂

    感谢    赞同    反对    举报    分享       回复
  • 88250            

    是的,等这个系统机制稳定一些以后会加入发帖过滤。

    感谢    赞同    反对    举报    分享       回复
  • KylinShaw 1 感谢        

    支持,现在烦死了 csdn,现在搜索一个问题,csdn 上各种转载,点开好几个都是相同的内容,没有一点意义。

    1 回复 
    感谢    赞同 3    反对    举报    分享       回复
  • clenji      

    有没有提供个测试的

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    可以发篇帖子测试。

    感谢    赞同    反对    举报    分享       回复
  • xiaopo            

    Google 能过滤网站,百度的话,用 ‘-msdn’ 就可以了

    感谢    赞同    反对    举报    分享       回复
  • Eddie    

    怎么区分别人转载了自己的文章,结果搜索引擎权重比自己的还高。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    通过时间区别,如果发帖时间早于搜索引擎返回的抓取时间,则时间项权重更大。

    感谢    赞同    反对    举报    分享       回复
  • wenandlu      

    是不是原创这东西,还是用人为判断比较靠谱。就像是论文查重一下,难道别人有过的思想,我就不能产生点新的感悟么。

    2 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    新的感悟不能靠搬运产生。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • YxxXlv0COaxl          

    你没看到网站存在某些用户批量刷帖的情况吗
    那些全都是批量全文转载. 毫无意义, 而且都是机器操作,
    对网站没有任何价值和意义

    感谢    赞同    反对    举报    分享       回复
  • DevYui 1 感谢        

    加油黑客派,加油大 D!

    感谢    赞同    反对    举报    分享       回复
  • nuaa123      

    如果发的帖子主要是截的图片,图片里的文字大量摘抄的,这个系统能评出分来嘛?

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    你说得好像很有道理 😅 这个暂时靠人肉吧,以后如果这样的情况多了就加个 OCR 转文字然后再识别。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • nuaa123            

    回去我发篇帖子试一试😋

    感谢    赞同    反对    举报    分享       回复
  • TheNow      

    😋

    感谢    赞同    反对    举报    分享       回复
  • zwxbest      

    请问我的这篇为什么没有标识?是 code 块不参与字数统计吗?
    MyBatis 日志模块源码分析
    大概什么时候会评分?是定时还是发帖的时候就评分

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    1. 计算帖子长度时会剔除 <pre><code><blockquote> 还有空格等元素,之后转纯文本,超过 512 个字才会进入原创评分
    2. 发布前不做评分,发布后第一次浏览会进行评分

    感谢    赞同    反对    举报    分享       回复
  • wizardforcel      

    盲目追求新是不对的,新的东西不一定有用。

    一个正常的社区应该区分原创和转载,并且对(优质且不侵权的)转载也同样包容。黑客派上的很多内容就是别人通过调用 API 转过来的,无论是不是作者亲自转载,按这个标准就是转载。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250 1 感谢              

    全文转载是坚决抵制的,除非是发帖者自己原创。这几天已经陆续删除了 4K 多篇通过博客同步过来的全文转载文章,现在已经在博客同步社区时加入了原创拦截机制,以后评分 50 以下的内容不会进入到社区中。

    2 回复 
    感谢    赞同    反对    举报    分享       回复
  • wizardforcel            

    如果你非得逼着创作者在你的社区和其它平台之间做两难选择(而其它平台不会这样),你的社区有什么条件或者回报能留住创作者?

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    创作者可以全文转载自己的原创内容到这里,这是受欢迎的。我抵制的是那种从网络上复制粘贴的行为,如果要分享别人的内容,帖链接即可。

    2 回复 
    感谢    赞同    反对    举报    分享       回复
  • wizardforcel            

    祝你好运。。

    感谢    赞同    反对    举报    分享       回复
  • EvilCodes      

    csdn 东西很多,但好多僵尸博客,找到精品帖,有价值的好帖子很难。

    感谢    赞同    反对    举报    分享       回复
  • EvilCodes            

    D 哥这个功能加的太有意义了

    感谢    赞同    反对    举报    分享       回复
  • EvilCodes            

    咱们的黑客派就应该有和其他社区不一样的东西才行

    感谢    赞同    反对    举报    分享       回复
  • pangwen      

    这真是超赞的功能,虽然我很 low,也创作不出啥东西 😋

    感谢    赞同    反对    举报    分享       回复
  • washmore            

    数据最好还是放在那里,万一哪天算法更新了从 49 变 59 了呢?可以选择性展示

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    是有这个可能性,感谢建议,后续会不断调整的。

    感谢    赞同    反对    举报    分享       回复
  • wyman0520      

    不是很清楚怎么评判呀,我的这篇《总结》可以说是百分百原创 我的 2018 年终总结

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    如果不是在黑客派上首发,原创指数会有影响,因为基本原理是从搜索引擎查询,如果发现其他地方已经收录了,原创指数就会降低。

    我并不是有意强迫大家在这里首发内容,本意是通过这个机制过滤掉大部分复制粘贴的内容,存在“误杀”情况实在是抱歉了,我会继续思考这方面的改进 🙏

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • miang      

    我从极客时间买的数据结构与算法课程,发到黑客派上了,这样会不会侵权,文章里的字真的是一个一个打的,不是复制粘贴的。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    你看下原文的授权协议。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • miang            

    额,我就分享吧,扔着都废了,不如让大家都看看
    20190113114556png

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • 88250            

    未经许可不得转载

    你这不是让我左右为难么。

    1 回复 
    感谢    赞同    反对    举报    分享       回复
  • miang 1 感谢              

    那就放在个人 solo 里了,不同步黑客了,还有 20 多篇,刚抄 10 几篇😂

    感谢    赞同    反对    举报    分享       回复
  • wmatrix      

    百度搜索引擎也应该学学采用这样的设计了,各种转载严重影响搜索体验的说

    感谢    赞同    反对    举报    分享       回复
  • vimtutor 1 感谢              

    感觉分数的计算确实不是很准,不过没关系,大家都等着站长慢慢完善!

    感谢    赞同    反对    举报    分享       回复
请输入回帖内容...