博客
关于我
Python 爬取起点的小说(非vip)
阅读量:357 次
发布时间:2019-03-04

本文共 1978 字,大约阅读时间需要 6 分钟。

Python 爬取小说章节(非VIP)- 以《冒牌大英雄》为例

本文将介绍如何使用Python编写一个爬取小说章节的脚本。以《冒牌大英雄》为例,讲述从非VIP章节爬取小说内容的实现方法。通过本地存储每个章节的内容,生成HTML格式的文件。

技术选型

本次实现使用了以下技术和工具:

  • 第三方库requests,用于发送HTTP请求,抓取网页内容
  • 正则表达式:用于解析网页源代码,提取章节链接
  • 文件存储:将爬取到的内容存储为本地文件
  • 爬取流程

    完整的爬取流程如下:

  • 获取起始网址的网页源代码
  • 从源代码中提取章节链接
  • 循环处理每个章节链接
    • 提取每个章节的标题
    • 提取每个章节的内容
    • 保存为本地文件
  • 文件命名规则
    • 文件名由标题加时间戳组成
    • 保存格式为HTML文件
  • 实现细节

    1. 获取起始网址的网页源代码

    使用requests库发送HTTP GET请求,获取起始网址的网页源代码。同时,设置合理的请求头信息,避免被网站反爬机制拦截。

    import requestsimport reurl = 'https://book.qidian.com/info/131957'headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',    'accept-encoding': 'gzip, deflate, sdch, br',    'accept-language': 'zh-CN,zh;q=0.8'}response = requests.get(url, headers=headers)response.encoding = 'utf-8'response_text = response.text

    2. 提取章节链接

    网页源代码中通常嵌入了章节链接,可以通过正则表达式提取。常见的提取方式包括:

    • 查找特定的a标签
    • 查找特定的li列表
    • 使用动态加载的内容(如data-rid属性)
    pat = r'
  • 'links = re.findall(pat, response_text)

    3. 循环处理每个章节链接

    对于每个找到的章节链接,重复以下步骤:

  • 发送HTTP GET请求,获取章节网页的内容
  • 提取标题和内容
  • 保存为本地文件
  • for link in links:    # 发送请求获取章节内容    chapter_url = 'https://book.qidian.com' + link    chapter_response = requests.get(chapter_url, headers=headers)    chapter_response.encoding = 'utf-8'    chapter_text = chapter_response.text        # 提取标题和内容    title_pat = r'

    (.*?)

    ' content_pat = r'(?<=
    ).*?(?=<\/content>)' title = re.search(title_pat, chapter_text).group(1) content = re.search(content_pat, chapter_text).group(0) # 保存文件 filename = f'"{title}"_{int(time.time())}.html' with open(filename, 'w', encoding='utf-8') as f: f.write(f'

    {title}

    {content}')

    4. 文件命名规则

    为确保每个文件唯一,可以在标题中添加时间戳。这样即使同一标题的章节多次爬取,也能生成不同的文件名。

    import timefilename = f'"{title}"_{int(time.time())}.html'

    注意事项

  • 反爬机制:部分网站会通过检测代理IP或请求频率来限制爬取行为。可通过设置代理IP池或模拟真实用户行为来规避。
  • 网络限制:部分网站会限制爬虫的并发请求量。可以通过requests库的timeout参数设置请求超时。
  • 内容变更:网站内容可能会定期更新,导致爬取的内容与实际页面有差异。建议定期检查和更新爬虫规则。
  • 通过以上方法,可以轻松实现爬取小说章节的需求。整个流程从获取源代码到存储本地文件,都可以通过Python脚本实现,满足批量处理和自动化的需求。

    转载地址:http://kokr.baihongyu.com/

    你可能感兴趣的文章
    Nginx配置——不记录指定文件类型日志
    查看>>
    nginx配置一、二级域名、多域名对应(api接口、前端网站、后台管理网站)
    查看>>
    Nginx配置代理解决本地html进行ajax请求接口跨域问题
    查看>>
    nginx配置全解
    查看>>
    Nginx配置参数中文说明
    查看>>
    nginx配置域名和ip同时访问、开放多端口
    查看>>
    Nginx配置好ssl,但$_SERVER[‘HTTPS‘]取不到值
    查看>>
    Nginx配置如何一键生成
    查看>>
    Nginx配置实例-负载均衡实例:平均访问多台服务器
    查看>>
    Nginx配置文件nginx.conf中文详解(总结)
    查看>>
    Nginx配置负载均衡到后台网关集群
    查看>>
    ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
    查看>>
    NHibernate学习[1]
    查看>>
    NHibernate异常:No persister for的解决办法
    查看>>
    NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
    查看>>
    NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>