使用node.js爬取网页数据（简单粗暴） - 查问我看

摘各种采集应用和采集插件的安装和采集代码整理

|-转使用node.js爬取网页数据（简单粗暴）

PHPer 2024-10-04 361 0 0

前言

本文使用node以爬取百度新闻为例展示node爬虫技术。需求：能看懂html网页结构，知道自己想要哪里。 需求：能看懂html网页结构，知道自己想要哪里。 需求：能看懂html网页结构，知道自己想要哪里。

正文

1.再vscode中新建文件夹，右键文件夹选择集成终端中打开

2.输入初始化命令：npm init -y

3.安装express 模块：npm i express

4.安装got模块：npm i got

5.安装cheerio模块：npm i cheerio 安装完成应显示：

6.代码部分：

app.get(/p, (req, res) => {								   		//定义路由
   (async () => {
       try {
           const response = await got(https://news.baidu.com/);   //想抓取的网址
           let $ = cheerio.load(response.body)                      //获取网址的DOM结构
           let result = $(#pane-news li a)                        //想抓取的部位
           let news = []                                            //定义新闻数组
           result.each((index, item) => {                           //循环抓取的内容
               news.push($(item).text())                            //循环添加到数组中 
               fs.writeFileSync(./news.txt, $(item).text()+\n, {flag: a}) //写入文件中
           }) 
           res.send(news)                                           //显示在页面上
       } catch (error) {
           console.log(error);
       }
   })();
})
//打开服务器端口
app.listen(3001, () => {
   console.log(http://localhost:3001)
})

提示：不会看不懂没事因为我没学node一开始也看不懂哈哈哈，直接复制粘贴。 在终端运行 http://localhost:3001/p 进行查看图示：要抓取的部分成果图：用fs模块写入txt文本： ...

浏览更多内容请先登录。 立即注册

采集, 内容整理

更新于：2024-10-04 17:23:26

您需要登录后才可以评论。立即注册

摘 各种采集应用和采集插件的安装和采集代码整理

|-转 使用node.js爬取网页数据（简单粗暴）

前言

正文

7

1222

147w+

229

服务器搭建

WEB

个人爱好

游戏

linux

互联网

操作系统

mysql

Python

Yii2

php

WEB后端

网站建设

采集

WEB前端

Centos

经济

工具

生活

内容整理

数据库

资源

OS

电影

JS

常用命令

保险

php项目

问题整理

IT

网站

魔兽世界

composer

NodeJs

观点

AI

欧美电影

Yii扩展

美女

学习

LAMP

全文索引

Apache

前端

发现

Windows

Android

影评

服务器维护

国产电影

uwow

PHP框架

邮件服务器

评测

随笔

服务器

音乐

历史

推荐内容

摘各种采集应用和采集插件的安装和采集代码整理

|-转使用node.js爬取网页数据（简单粗暴）