【释疑贴】社区贴子与用户的数据统计(新手必看)

本贴最后更新于 1669 天前,其中的信息可能已经事过境迁

一开始对社区的导航方式无法适应,不知道从哪里开始查看感兴趣的贴子(开始没有发现登录后可以直接使用搜索功能以为只能用 Google 的站内搜索),所以想把贴子标题爬下来快速浏览,最初的想法是从最新贴子里找动态加载分页信息的 url,但是发现不好计算出总页数也无法区分动态加载的 json 数据是不是含有重复的混淆数据,试了好几次没有结果。

后来发现主页的底部导航有数据统计的页面链接,没想到社区所有注册用户信息是可以公开访问的,于是先爬了下七百多页的用户列表页提取出了 50207 位用户的用户名和个人主页链接,接着逐个爬取用户主页上的数据,最后爬取公开贴子列表用户(有 68 位用户选择不公开贴子列表)的贴子列表获取到 16124 条贴子的数据。最近将爬取到的数据做成了 3 个 Excel 表,部分截图如下,有兴趣的小伙伴可以查看隐藏的打赏内容。

post.PNG
U.PNG
P.PNG

注册用户数最多的 10 个城市(基于公开城市位置的用户统计):

排行 城市 人数
TOP.1 北京 4270
TOP.2 上海 2637
TOP.3 深圳 2224
TOP.4 广州 1870
TOP.5 杭州 1768
TOP.6 成都 1310
TOP.7 武汉 969
TOP.7 南京 928
TOP.8 重庆 675
TOP.8 西安 613
TOP.9 苏州 596
TOP.9 长沙 542
TOP.9 郑州 526
TOP.10 济南 434

【黑客】成员与【画家】成员的数量:

身份 人数 占比
黑客 46424 92%
画家 3783 8%

活跃用户数:

条件 人数 占比
发贴数不为 0 2730 5.4%
发贴数不少于 10 396 0.8%
回贴数不为 0 4747 9.5%

贴子数据统计:

过滤条件 贴子数量
非管理员节点贴子浏览数不少于 500 1742
非管理员节点贴子回贴数不为 0 7227
非管理员节点贴子回贴数不为 0 或浏览数不少于 500 7776
非管理员节点贴子回贴数不少于 20 且浏览数不少于 500 235

2019 年 8 月份各时间段访问黑客派的在线人数平均值(按数据统计里显示的在线用户数减去所有数据里面最低的一个数值 116):

  • 在线人数最多的时刻:8 月 19 日 17:05(733)
  • 在线人数最少的时刻:8 月 25 日 05:50(116)
时间段 访问网站在线人数
6~7 点 53
7~8 点 61
8~9 点 91
9~10 点 190
10~11 点 280
11~12 点 336
12~13 点 328
13~14 点 317
14~15 点 344
15~16 点 372
16~17 点 394
17~18 点 385
18~19 点 305
19~20 点 248
20~21 点 230
21~22 点 223
22~23 点 212
23~0 点 187
0~1 点 142
1~2 点 100
2~3 点 77
3~4 点 66
4~5 点 59
5~6 点 53

新增用户登录之后在黑客派停留总时长的统计:

在线总时长 人数
10 分钟 + 11295
1 小时 + 6569
10 小时 + 2161
20 小时 + 1349
50 小时 + 670
100 小时 + 372
200 小时 + 196
720 小时 + 48
任意时长 19250

追加 3 个统计表格:

年份 年度发贴数 年度新注册用户数
2012 55 79
2013 498 380
2014 158 186
2015 953 1569
2016 3066 3591
2017 3505 5141
2018 4681 26953
2019.8 3207 12308
月份 发贴分布数 新注册用户分布数
1 月 1317 5936
2 月 976 2678
3 月 1566 2884
4 月 1455 2732
5 月 1262 8574
6 月 1253 3987
7 月 1396 4814
8 月 1673 5239
9 月 1311 3575
10 月 1126 3326
11 月 1418 3362
12 月 1370 3100
时间段 发贴总数 收到的回贴总数
0~1 点 419 1978
1~2 点 209 891
2~3 点 66 290
3~4 点 32 120
4~5 点 27 30
5~6 点 13 32
6~7 点 40 162
7~8 点 74 245
8~9 点 306 1650
9~10 点 1160 5817
10~11 点 1419 7815
11~12 点 1335 6368
12~13 点 698 2939
13~14 点 820 4050
14~15 点 1200 4970
15~16 点 1217 5022
16~17 点 1273 4550
17~18 点 1257 3920
18~19 点 793 2214
19~20 点 610 1597
20~21 点 719 2563
21~22 点 784 2362
22~23 点 906 2914
23~0 点 746 2729

分析发现,每天最佳发贴时间段是 10~11 点。

以上社区开放的数据只放在社区给大伙解疑。如果你还对会员升级系统感兴趣,请看:
https://hacpai.com/article/1567678498082

打赏 70 积分后可见
70 积分 • 8 打赏
  • 黑客派

    黑客派是 B3log 开源社区的线上论坛,这里主要汇聚了程序员和设计师。HacPai 分别取 Hacker / Painter 的头三个字母组成,源自《黑客与画家》。

    358 引用 • 4754 回帖 • 510 关注
  • 数据统计
    4 引用 • 37 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
soulfight
Don't judge, don't believe; keep running, keep alive.

推荐标签 标签

  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    4 引用 • 55 回帖 • 7 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    6546 引用 • 29417 回帖 • 244 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 685 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 417 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    108 引用 • 54 回帖
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 27 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 25 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    5 引用 • 13 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 94 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    53 引用 • 85 回帖
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    476 引用 • 899 回帖 • 2 关注
  • 分享

    有什么新发现就分享给大家吧!

    242 引用 • 1747 回帖
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 175 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 3 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    131 引用 • 3639 回帖
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 626 关注
  • 笔记

    好记性不如烂笔头。

    303 引用 • 777 回帖
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    116 引用 • 99 回帖 • 267 关注
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 3 关注
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1398 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 605 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 319 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖 • 3 关注
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    1 引用 • 11 回帖 • 2 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 383 回帖 • 3 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 152 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 442 关注