记录一次 Selenium WebDriver 无法正常加载 www.xxx.com 域名 Cookie 文件的解决办法

本贴最后更新于 1787 天前,其中的信息可能已经物是人非

具体问题为,在使用 WebDriver 正常登录网址后,进行了 Cookie 保存,但在下次自动反序列化加载 Cookie 时发现无法正常加载,导致每次需要重新登录验证,目前采用了一种曲线救国的方式,在序列化 Cookie 时调整域名为 xxx.com,具体方案如下。

具体问题大家也可以参见:Add cookie exception when dot exists before domain name

首先,在成功登录后序列化 Cookie 时:

/**
 * 序列化CookieStore
   * @param driver WebDriver
   * @param cookieFile 序列化地址
   * @return 是否序列化成功
   */
  public static boolean saveCookies(WebDriver driver, String cookieFile){
     try{
        Options options = driver.manage();
        Set<Cookie> cookieSet = options.getCookies();

        CookieStore cookieStore = CookieUtils.driverCookie2HttpCookie(cookieSet);

        return ObjectUtils.serializeFile(cookieStore, cookieFile);
     }catch(Exception e){
        e.printStackTrace();
        return false;
     }
  }
/**
 * 将获取的DriverCookie值转换为HttpCookie
 * @param driver WebDriver
 * @return CookieStore 
 */
public static CookieStore driverCookie2HttpCookie(Set<org.openqa.selenium.Cookie> cookies) {
    CookieStore store = new BasicCookieStore();

    for (org.openqa.selenium.Cookie cookie : cookies) {
        BasicClientCookie bcc = new BasicClientCookie(cookie.getName(), cookie.getValue());
      
        // log.debug("[" + cookie.getName() + "]=[" + cookie.getValue() + "]" + cookie.getDomain() == null ? "" : cookie.getDomain());
      
        // 整理Cookie,将www去掉,否则Driver在addCookies时将会自动在前面加.,即www.abc.com变成.www.abc.com,从而无法使用
	String domain = cookie.getDomain();
        bcc.setDomain(StringUtils.isEmpty(domain) ? null : domain.startWiths("www") ? domain.substring(3) : domain);
      
        bcc.setPath(cookie.getPath().equals("//") ? "/" : cookie.getPath());
        bcc.setExpiryDate(cookie.getExpiry());
      
        store.addCookie(bcc);
    }
    
    return store;
  }

然后就可以在下次加载 WebDriver 时正常加载 Cookie 了

/**
 * 给指定的URL填充Cookie
 * @param url 要加载的地址
 */
protected void addCookies(String url) {
    driver.get(url);
        
    if(null != cookieStore){
        driver.addCookies(cookieStore);
        driver.refresh();
        driver.waitPageLoad();
    }
}
/**
 * 给Driver增加Cookie
 * @param driver
 * @return
 */
public void addCookies(CookieStore cookieStore) {
    Options options = driver.manage();
    List<Cookie> cookieList = CookieUtils.httpCookie2DriverCookie(cookieStore);
    for(Cookie cookie : cookieList){
        // 整理Cookie,将www去掉,否则回填时将会自动在前面加.,即www.abc.com,将变成.www.abc.com,而无法使用
        // 一般情况下在序列化时已经解决了前置www的问题,在这儿应该就不需要再验证了,但考虑到部分已经存在的CookieStore还存在前置www的问题,所以可以应用验证
        // cookie = new Cookie(cookie.getName(), cookie.getValue(), 
        //       CookieUtils.modifyDomain4Driver(cookie.getDomain()), cookie.getPath(), cookie.getExpiry(), false, false);
        
        options.addCookie(cookie);
    }
  }

到这儿,可能有人要问了,序列化时干嘛转来转去的,把 Set转换为 CookieStore,纯粹 CookieStore 有其它用处,你也可以不转换直接序列化。

另外,注意在 WebDriver 加载 Cookie 前需要先打开网址,不能直接先加载 Cookie,Cookie 要加载到某个域名下,因此,需要先打开网址,再加载 Cookie,加载完成后 refresh 刷新页面,最后通过规则指定是否加载(登录)成功。

参见:Issue #4861 · SeleniumHQ/selenium

  • Selenium
    16 引用 • 13 回帖
  • 调试
    5 引用 • 35 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • someone
    作者

    目前还没找到更优雅的方式来解决这个域名问题,不过经测试,有的网站在更改 Cookie 域名后也没问题,有的就不行,显示未登录状态。
    另外,还有一个思路,增加 Driver 池,仅在第一次需要登录,后面直接从池中拿 Driver,但貌似进程一多内存耗不起。
    后面有空了再继续 Google 吧。也欢迎大家讨论。

推荐标签 标签

  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 642 关注
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    476 引用 • 899 回帖
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    75 引用 • 258 回帖 • 630 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    4 引用 • 55 回帖 • 7 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 692 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    126 引用 • 1699 回帖
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 28 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    169 引用 • 799 回帖
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    40 引用 • 40 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 44 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    333 引用 • 323 回帖 • 70 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 4 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 293 关注
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 84 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    163 引用 • 1450 回帖 • 1 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 455 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 199 关注
  • 安全

    安全永远都不是一个小问题。

    189 引用 • 813 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    21 引用 • 22 回帖
  • danl
    61 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 553 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 69 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    35 引用 • 35 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 37 关注