node爬取数据实例：聊聊怎么抓取小说章节

2022-05-02

0 查看

保存已保存已移除 0

在文档中，可以使用示例进行调试

使用cheerio解析HTML

cheerio解析html时，获取dom节点的方式与jquery相似。

根据之前获取到的书籍首页的html，查找自己想要的dom节点数据

const fs = require('fs') const cheerio = require('cheerio');  // 引入读取方法 const { getFile, writeFun } = require('./requestNovel')  let hasIndexPromise = getFile('./hasGetfile/index.html');  let bookArray = [];  hasIndexPromise.then((res)=>{     let htmlstr = res;     let $ = cheerio.load(htmlstr);      $(".listmain dl dd a").map((index, item)=>{         let name = $(item).text(), href = 'https://www.shuquge.com/txt/147032/' + $(item).attr('href')         if (index > 11){             bookArray.push({ name, href })         }              })     // console.log(bookArray)     writeFun('./hasGetfile/hrefList.txt', JSON.stringify(bookArray), 'w') })

打印一下信息

可以同时将这些信息也存储起来

现在章节数和章节的链接都有了，那么就可以获取章节的内容了。

因为批量爬取最后需要IP代理，这里还没准备，暂时先写获取某一章节小说的内容方法

爬取某一章节的内容其实也比较简单：

// 爬取某一章节的内容方法 function getOneChapter(n) {     return new Promise((resolve, reject)=>{         if (n >= bookArray.length) {             reject('未能找到')         }         let name = bookArray[n].name;         request = https.request(bookArray[n].href, { encoding:'gbk' }, (res)=>{             let html = ''             res.on('data', chunk=>{                 html += chunk;             })             res.on('end', ()=>{                            let $ = cheerio.load(html);                 let content = $("#content").text();                 if (content) {                     // 写成txt                     writeFun(`./hasGetfile/${name}.txt`, content, 'w')                     resolve(content);                 } else {                     reject('未能找到')                 }             })         })         request.end();     }) }  getOneChapter(10)

这样，就可以根据上面的方法，来创造一个调用接口，传入不同的章节参数，获取当前章节的数据

const express = require('express');  const IO = express(); const { getAllChapter, getOneChapter } = require('./readIndex') // 获取章节超链接链表 getAllChapter();  IO.use('/book',function(req, res) {     // 参数     let query = req.query;     if (query.n) {         // 获取某一章节数据         let promise = getOneChapter(parseInt(query.n - 1));         promise.then((d)=>{             res.json({ d: d })         }, (d)=>{             res.json({ d: d })         })     } else {         res.json({ d: 404 })     }      })  //服务器本地主机的数字 IO.listen('7001',function(){     console.log("启动了。。。"); })

效果：

现在，一个简单的查找章节接口就做好了，并且也可以做一些参数超出判断。

对于不同的数据接口，爬虫处理方式也不一样，不过在本次爬取的链接中，内容的显示并不是由前端动态渲染出来的，所以可以直接爬取静态的html即可。如果遇到数据是通过Ajax之类的方式获取到的json串，那就要通过网络接口去请求数据了。

更多node相关知识，请访问：nodejs 教程！

node爬取数据实例：聊聊怎么抓取小说章节

使用cheerio解析HTML

Laravel中的permission权限管理的扩展包

MySQL性能调优之查询优化

解决Windows远程桌面 “为安全考虑,已锁定该用户账户,原因是登录尝试或密码更改尝试过多,请稍后片刻再重试,或与系统管理员或技术支持联系“问题

固态硬盘分区和不分区到底有哪些利弊？

背面供电技术（BSPDN），越来越热！

AMPERE® ALTRA® 系列64位多核处理器

接收有关新品上线的信息、提示和优惠通知

联系信息

探索...

Reckless (The Powerless Trilogy) by Lauren Roberts

EcoFlow RIVER 2 Portable Power Station 256Wh Generator LFP Certified Refurbished

对比商品

购物车