这两天琢磨的算是分享一下想法吧。实现起来估计又是另一回事了。 【前言】 前两天看到了一个托管在 GitHub Page 上的 Wiki 资料库。外带一个吃了屎一样的 搜索功能。 我想了想,如果做 Google 的 site,没技术的人看不到了,用 Baidu 的 site 搜索,,,算了当我没说。 【要做的】 一个站长 ..

【想法】一个站内搜索平台?

这两天琢磨的算是分享一下想法吧。实现起来估计又是另一回事了。

【前言】

前两天看到了一个托管在 GitHub Page 上的 Wiki 资料库。外带一个吃了屎一样的😂 搜索功能。

我想了想,如果做 Google 的 site,没技术的人看不到了,用 Baidu 的 site 搜索,,,算了当我没说。

【要做的】

  1. 一个站长平台,让人家提交这些个网站。
  2. 撸一个蜘蛛,隔两天翻一遍这些个网站。
  3. 一个全文索引的系统,开源的数数,估计第一反应是 es。

【盈利模式】

没想出来,就挂广告吧。

【有什么优势】

  1. 中文支持
  2. 全索引,不想某家伙,新文章出来半年后收录了。。。。
  3. 适用于全静态网站。对动态网站也很好接入。

【难度】

  1. 搜索技术还是很复杂,简单的关键字匹配能实现。但是语境下关键词实意不好处理。
  2. 存储和处理,产本贼大啊。
  3. 有那么多有需求的网站吗?
  • 奇思妙想

    虽然我们的世界构建在想象力上,但光想不实操也是没用的。

    53 引用 • 616 回帖 • 1 关注
  • 头脑风暴
    5 引用 • 49 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    241 引用 • 2544 回帖 • 911 关注
4 回帖   
请输入回帖内容...
  • 88250

    数据源(站点)主动推送结构化数据到搜索平台上,搜索平台索引入口,站点需要的时候来查询。这个思路已经有比较成熟的商业公司提供,比如 Algolia,之前我一直在用它,后来还是迁移到了自建的 ES 上。

    你的想法好像是反过来用蜘蛛来爬,就和广义上的搜索引擎一样对吧?这样的话好像没有什么优势了啊,有可能是我没有理解你的意思 😂

    1 回复
  • zhshch        

    嗯,索引机制是和正常的搜索引擎一样。但提供站内搜索和通用搜索不太一样。我不会管你的页面有什么竞价或者同类网站竞争。我只专心索引你全站,然后提供一个 api 或者一个入口页面做站内搜索。谷歌收录很快但是有人访问不了,百度对网站不是很友好。

    Algolia 我刚看了看,貌似和我想的差不多。它还提供一个 internal search 的插件类似的东西,好像是在 js 里缓存索引。

    我一开始也想结构化提交然后索引。但是对于一开始说的 GH Page 的网站入侵性太大了。正常的蜘蛛也挺好啊。

    1 回复
  • 88250      

    不提交结构化数据的话要按字段过滤排序等高级搜索有点难啊....

  • miang