详解Puppeteer 入门教程

网络编程 2025-04-05 03:42www.168986.cn编程入门

这篇文章主要介绍了Puppeteer入门教程，由长沙网络推广分享。Puppeteer是一个Node库，提供了一组用于操纵Chrome的API。作为一个headless浏览器，Puppeteer可以执行许多在常规浏览器中可以手动完成的操作。以下是详细的介绍和示例：

一、Puppeteer简介

Puppeteer是一个强大的工具，可以生成网页截图或PDF、进行高级爬虫操作、模拟键盘输入、表单自动提交等，实现UI自动化测试，并捕获站点的时间线以追踪网站并帮助分析网站性能问题。与PhantomJS相比，Puppeteer具有类似的功能，但作为Chrome官方团队维护的工具，其前景更好。

二、运行环境

使用Puppeteer需要满足一定的运行环境要求。Nodejs版本不能低于v7.6.0，以支持async和await等ES7规范。还需要的chromedriver，在安装Puppeteer时系统会自动下载。

三、基本用法

通过npm install puppeteer --save命令安装Puppeteer。下面是一个官方的入门DEMO，展示了如何使用Puppeteer进行网页截图：

```javascript

const puppeteer = require('puppeteer');

(async () => {

const browser = await puppeteer.launch();

const page = await browser.newPage();

await page.goto('

await page.screenshot({path: 'example.png'});

await browser.close();

})();

```

这个简单的代码片段展示了如何使用Puppeteer创建一个浏览器实例、创建页面、跳转到指定页面、进行网页截图以及关闭浏览器的过程。

四、常用API介绍

1. puppeteer.launch(options)：使用puppeteer.launch()运行puppeteer，返回一个promise，通过then方法获取browser实例。由于Puppeteer几乎所有的操作都是异步的，为了增强代码可读性，建议使用async和await关键字来实现。这也是Puppeteer官方推荐的写法。

Puppeteer是一个功能强大、易于使用的工具，可以用于网页截图、爬虫、自动化测试等场景。它的运行环境要求简单，使用起来也非常方便。希望通过这篇入门教程，读者能够了解并熟练使用Puppeteer，为网站推广和SEO优化提供帮助。对于 async/await 一脸懵逼的同学们，这是一篇关于 options 参数详解的文章。如果你正在使用 Puppeteer 或其他类似的库，了解这些参数将帮助你更好地控制程序的行为。让我们一起深入了解这些参数的含义和用途。

ignoreHTTPSErrors：这是一个布尔值参数，用于确定是否忽略在请求过程中出现的 Https 报错信息。默认情况下，这个参数为 false，表示如果出现 Https 错误将会报错。但是如果你希望自动化处理某些情况，比如测试环境中的自签名证书等，可以将其设置为 true。

headless：这个参数也是一个布尔值，用于确定是否以“无头”模式运行 Chrome。在这种模式下，Chrome 将不会显示用户界面（UI），使得程序可以在后台运行，通常用于自动化任务或服务器端的渲染。默认情况下，这个参数为 true。

executablePath：这是一个字符串参数，用于指定 Puppeteer 使用的 chrome webdriver 的路径。默认情况下，Puppeteer 会使用自带的 chrome webdriver。如果你有自己的 webdriver 并希望指定其路径，可以通过这个参数进行设置。

slowMo：这是一个数值参数，用于使 Puppeteer 的操作减速。单位是毫秒。如果你想观察 Puppeteer 的整个工作过程，这个参数将非常有用。通过调整这个参数的值，你可以控制 Puppeteer 的操作速度，从而更好地观察和理解其工作流程。

args：这是一个字符串数组参数，用于传递给 chrome 实例的其他参数。你可以使用这些参数来设置浏览器窗口大小、启用某些特性等。更多参数可以参考官方文档。

handleSIGINT：这是一个布尔值参数，用于确定是否允许通过进程信号控制 chrome 进程。也就是说，如果你设置为 true，可以使用 CTRL+C 关闭并退出浏览器。这对于在终端运行程序时非常有用。

timeout：这是一个数值参数，用于指定等待 Chrome 实例启动的最长时间。默认为 30 秒（30000 毫秒）。如果你希望更长时间等待 Chrome 启动，或者在某些情况下不希望有时间限制，可以调整这个参数的值。

dumpio：这是一个布尔值参数，用于确定是否将浏览器进程的 stdout 和 stderr 导入到 process.stdout 和 process.stderr 中。这对于调试和查看浏览器进程的输出信息非常有用。

userDataDir：这是一个字符串参数，用于设置用户数据目录的位置。这通常包括浏览器配置、缓存等信息。在某些情况下，你可能需要指定一个特定的目录来存储这些数据。

env：这是一个对象参数，用于指定对 Chromium 可见的环境变量。默认情况下，它等于 process.env。你可以通过调整这个参数来设置或修改环境变量，以影响 Chromium 的行为。

DevTools的与实战——深入Puppeteer之旅

当我们提及Chrome浏览器的开发者工具（DevTools），你是否曾对其无尽的功能感到惊叹？你有没有想过，如何在编程时自动化地与DevTools互动呢？Puppeteer为我们提供了这一神奇的机会。让我们一起揭开它的神秘面纱吧！

3.2 Browser对象介绍

当Puppeteer与Chrome实例连接时，一个神秘的Browser对象便诞生了。创建它的两种方式分别为：Puppeteer.launch和Puppeteer.connect。在这狼蚁网站SEO优化的DEMO中，我们看到了如何断开连接后重新连接浏览器实例的技巧。

让我们来看一段代码示例：

```javascript

const puppeteer = require('puppeteer');

puppeteer.launch().then(async browser => {

// 保存Endpoint，便于后续重新连接Chromium

const browserWSEndpoint = browser.wsEndpoint();

// 断开与Chromium的连接

browser.disconnect();

// 使用保存的endpoint重新连接Chromium

const browser2 = await puppeteer.connect({browserWSEndpoint});

// 关闭Chromium实例

await browser2.close();

});

```

在这个例子中，我们展示了如何使用Puppeteer API创建Browser对象，以及如何保存和重新使用连接端点。这对于需要频繁断开和重新连接浏览器实例的自动化任务非常有用。现在让我们深入了解一下Browser对象的API。以下是一些核心方法及其功能：

`browser.close()`: 关闭浏览器实例，返回一个Promise对象。

`browser.disconnect()`: 断开与浏览器的连接，无返回值。这对于重新连接非常有用。

`browser.newPage()`: 创建一个新的页面实例，返回一个Promise对象。这对于打开新标签页非常有用。

`browser.pages()`: 获取所有打开的页面实例列表，返回一个Promise对象。这对于管理多个标签页非常有用。

`browser.targets()`: 获取所有活动的浏览器目标列表，返回一个数组对象。这对于跟踪浏览器中的不同窗口和标签页非常有用。

`browser.version()`: 获取浏览器的版本信息，返回一个Promise对象。这对于了解浏览器版本兼容性非常有用。

`browser.wsEndpoint()`: 返回浏览器实例的连接端点URL，可以用于重新连接Chrome实例。这对于自动化任务非常有价值。

除了这些方法之外，Puppeteer还提供了许多其他强大的功能和方法，如模拟用户操作、获取页面内容等。了解这些API后，我们就可以开始实战演练了！接下来我们将Puppeteer的设计原理与实际应用的结合点。简而言之，Puppeteer的设计理念是以用户浏览的角度为出发点，而传统的自动化测试工具如webdriver和PhantomJS则是站在机器浏览的角度设计。这一区别使得Puppeteer在许多场景下更加实用和灵活。在接下来的实战部分，我们将深入如何利用这些功能进行自动化测试和优化任务。让我们共同期待更多的精彩内容吧！在京东的首页，无论是使用Puppeteer还是webdriver，打开页面并开始搜索的过程都相对直观和简单。下面我将为您分别阐述这两种工具的使用流程，并以一个具体的案例来进一步说明Puppeteer的使用方式。

让我们来看看使用Puppeteer打开京东首页并进行产品搜索的流程。这个过程相对直观，更符合我们的日常操作习惯。简单来说，步骤如下：

一、打开京东首页。在Puppeteer中，这通常是通过创建一个浏览器实例并导航到京东首页URL来实现的。

二、将光标聚焦到搜索输入框。这一步可以通过页面上的选择器实现，选择器能够精确地定位到页面上的元素。在Puppeteer中，我们可以使用page.$(selector)方法来获取单个元素。这里的selector可以根据京东首页的HTML结构来确定。

三、键盘点击输入文字。在Puppeteer中，我们可以模拟键盘输入操作，通过page.evaluate()方法执行自定义的JS脚本实现输入文字的功能。例如，我们可以使用page.$eval('input[name=search]', input => input.value)来设置输入框的值。我们还可以模拟键盘敲击事件进行输入。

四、点击搜索按钮。在Puppeteer中，我们可以通过调用页面上的click事件来模拟点击操作。这通常是通过找到搜索按钮的元素并触发其click事件来实现的。这个过程可以通过page.$(selector).click()实现。

再来看看使用webdriver的实现流程。同样是打开京东首页，找到输入框的input元素并设置其值，然后触发搜索按钮的单机事件。但在webdriver中，我们需要先获取到对应的WebElement对象，然后通过调用其sendKeys方法和click方法来实现相应的操作。需要注意的是，webdriver有更丰富的API供我们使用，可以在测试过程中更精确地控制浏览器行为。但是webdriver相较于Puppeteer学习门槛更高一些。对于不熟悉selenium的用户来说学习成本较高。而Puppeteer的设计哲学更符合直观的操作习惯，更易于上手和使用。因此在实际使用中可以根据个人需求和熟悉程度选择相应的工具进行操作。至于在京东商城抓取商品详情页截图的需求，我们可以利用Puppeteer进行更深入的学习和应用实现这个功能需求了。在下一阶段我们将深入如何利用Puppeteer进行网页元素的查找与操作、页面截图等功能的使用方法和技巧实现需求目的的同时进一步体验其强大的功能性和便捷性。在网页自动化和网页内容提取方面，Puppeteer为我们提供了强大的工具。让我们一起深入了解其中三个功能强大的方法：`page.evaluate()`, `page.evaluateHandle()`, 和 `page.evaluateOnNewDocument()`。

当我们想要获取网页的截图时，可能会遇到默认截图区域限制的问题。这时，我们可以使用`page.screenshot()`方法并设置截图区域的大小。通过`page.evaluate()`获取页面的实际宽度和高度，这样就能确保截图覆盖整个网页内容。代码示例如下：

```javascript

const browser = await puppeteer.launch({headless:true});

const page = await browser.newPage();

await page.goto('

await page.setViewport({width:1920, height:1080});

const documentSize = await page.evaluate(() => ({

width: document.documentElement.clientWidth,

height: document.body.clientHeight,

});

await page.screenshot({path:"example.png", clip: {x:0, y:0, width:1920, height:documentSize.height}});

await browser.close();

```

```javascript

const aHandle = await page.evaluateHandle(() => document.body);

const resultHandle = await page.evaluateHandle(body => bodynerHTML, aHandle);

console.log(await resultHandle.jsonValue()); // 输出动态HTML代码

await resultHandle.dispose(); // 释放资源

```

我们来看看`page.evaluateOnNewDocument()`方法。这个方法在文档页面载入前调用，如果页面中有iframe或者frame，则函数调用的上下文环境会变成子页面的。这个函数通常用于初始化JavaScript环境或重置一些全局变量。这对于处理含有多个iframe或frame的复杂网页非常有用。

Puppeteer的这些方法为我们提供了强大的网页自动化和内容提取能力。通过深入理解这些方法的工作原理和使用场景，我们可以更加高效地编写出流畅、有吸引力的代码，实现各种网页自动化任务。Page.exposeFunction API介绍

除了前面所介绍的三个API之外，还有一个非常有用的API，那就是Page.exposeFunction。这个强大的API允许你在页面注册全局函数，为你提供极大的便利。

在网页自动化或网页测试的过程中，我们经常需要在页面执行某些操作时调用特定的函数。虽然使用Page.evaluate() API可以在页面定义函数，但这并不够高效。每次使用evaluate时都需要重新定义函数，无法实现代码的复用。这时，Page.exposeFunction API就派上了用场。

想象一下，你需要在页面中多次获取页面的尺寸。如果使用Page.evaluate()来定义获取页面尺寸的函数，每次都需要重新编写相同的代码。这不仅效率低下，而且容易出错。但如果你使用Page.exposeFunction来注册一个全局的获取页面尺寸的函数，就可以轻松地在页面的任何地方调用这个函数，无需重复编写代码。

对于那些熟悉Node.js开发者来说，Page.exposeFunction API更是如虎添翼。Node.js拥有大量成熟的工具包，可以轻松地实现各种复杂的功能。比如，要实现md5加密功能，Node.js环境下可能只需几行代码就能完成。但在纯JavaScript环境中，实现起来可能会相对复杂。通过Page.exposeFunction API，你可以将Node.js中的这些功能暴露给页面使用，大大提高了开发效率和便捷性。

狼蚁网站的SEO优化之旅：Page上下文的window对象的功能增强

在网站优化过程中，我们经常需要为页面的上下文环境添加一些实用功能。比如，给window对象添加md5函数以进行内容校验。下面是使用Puppeteer库实现这一功能的代码示例。

引入Puppeteer和crypto库，然后启动浏览器实例，创建一个新页面，并监听控制台输出。接着，通过page.exposeFunction方法向window对象注册一个md5函数，该函数使用crypto库的md5算法生成哈希值。在page.evaluate中调用window.md5函数计算字符串的md5值并打印出来。浏览器实例结束后，关闭浏览器。

除此之外，Page.exposeFunction API的使用非常便捷且实用。例如，我们还可以给window对象注册一个readfile全局函数，用于读取文件内容。同样地，使用fs库读取文件内容，并通过Promise返回结果。在page.evaluate中调用window.readfile函数读取文件内容并打印出来。

Puppeteer还提供了一些API来修改模拟器（客户端）的运行配置，让我们能够模拟不同的浏览器环境。比如，Page.setViewport可以修改浏览器视窗大小，以适应不同分辨率的显示设备；Page.setUserAgent可以设置浏览器的UserAgent信息，模拟不同浏览器或版本的环境；Page.emulateMedia可以更改页面的CSS媒体类型，进行模拟媒体仿真，帮助我们更好地测试响应式设计。这些功能都为我们的网站优化提供了强大的工具。

通过以上的代码示例和介绍，我们可以看到Puppeteer的强大功能和丰富的API。这些API可以帮助我们模拟真实的浏览器环境，进行网站的各种测试和优化。对于狼蚁网站来说，利用这些API进行SEO优化，提升用户体验和页面性能，将会是非常有价值的。Puppeteer：模拟设备，键盘和鼠标操作以及实用API

在自动化网页操作和测试的过程中，模拟不同设备和环境，以及模拟键盘鼠标行为是极其关键的部分。Puppeteer正是这样一个强大的工具，能够帮助我们实现这些需求。

我们可以通过page.emulate()来模拟不同的设备环境。无论是PC还是移动设备，如iPhone、Mac、Android等，都可以轻松模拟。例如，我们可以设置视窗大小为1920x1080，或者模拟打印机媒体样式。Puppeteer还支持丰富的设备模拟，包括Galaxy, iPhone, iPad等。详细的设备支持列表，你可以进一步了解。

除了模拟设备，Puppeteer还允许我们模拟键盘和鼠标行为。键盘的API如keyboard.down(), keyboard.press(), keyboard.sendCharacter(), keyboard.type(), keyboard.up()等，让我们可以轻松地触发键盘事件并输入字符。对于鼠标操作，我们可以使用mouse.click(), mouse.down(), mouse.move(), mouse.up()等API来模拟鼠标行为。

Puppeteer还提供了几个非常有用的API。例如，Page.waitFor系列API，包括waitFor(selectorOrFunctionOrTimeout)，waitForFunction(pageFunction)，waitForNavigation(options)，以及waitForSelector(selector)。这些API能够帮助我们等待页面元素加载完成，或者等待某个特定的函数执行完成。这对于处理异步加载的网页元素特别有用。Puppeteer还提供了一些设备模拟的高级功能，例如模拟非PC设备访问网页等。例如，我们可以模拟iPhone 6访问google的代码片段。只需引入puppeteer和相关的设备描述符，然后利用page.emulate()和page.goto()等方法即可完成模拟访问。这对于网站SEO优化和自动化测试非常有帮助。Puppeteer是一个功能强大且易于使用的工具，它能够帮助我们模拟不同的设备和环境，模拟键盘和鼠标操作，以及提供一系列实用的API来处理各种网页操作。无论你是开发者还是测试人员，都可以通过Puppeteer轻松实现自动化操作和测试。在Web开发中，我们经常遇到需要获取异步加载的元素的情况。如果你直接尝试获取这些元素，可能会无功而返。这时，Puppeteer的`page.waitForSelector`方法就派上了用场。

想象一下你在尝试抓取京东的产品信息，这些产品由于是通过JS异步加载的，直接获取是无法得到完整的数据的。这时，你可以这样写：

```javascript

await page.waitForSelector('.gl-item'); // 等待元素加载完成，否则无法获取到异步加载的元素

const links = await page.$$eval('.gl-item > .gl-i-wrap > .p-img > a', links => {

return links.map(a => {

return {

href: a.href.trim(), // 去掉链接中的多余空格

name: a.title // 获取链接的标题作为产品名称

};

});

```

这样，你就能成功地获取到所有异步加载的产品链接和名称。

除了上述方法，Puppeteer的`page.getMetrics()`可以帮助我们获取页面性能数据，有助于诊断和优化页面性能。通过这个方法，我们可以得到如下性能指标：

Timestamp：度量标准采样的时间戳

Documents：页面文档数

Frames：页面frame数

JSEventListeners：页面内事件监听器数

Nodes：页面DOM节点数

LayoutCount：页面布局总数

RecalcStyleCount：样式重算数

LayoutDuration：所有页面布局的合并持续时间

RecalcStyleDuration：所有页面样式重新计算的组合持续时间

ScriptDuration：所有脚本执行的持续时间

TaskDuration：所有浏览器任务时长

JSHeapUsedSize：JavaScript占用堆大小

JSHeapTotalSize：JavaScript堆总量

本文通过一个具体的实例学习了Puppeteer的一些基本和常用的API。这些API的版本是基于v0.13.0-alpha。对于版本的API，建议查阅官方文档。Puppeteer作为一款强大的headless工具，操作简单，功能丰富，无论是进行UI自动化测试还是开发小工具，都是个不错的选择。它的灵活性和易用性使得开发者能够更轻松地处理各种Web页面任务。狼蚁网站的SEO优化：源码展示与理解指南

=====================

一、引言

随着网络的发展，搜索引擎优化（SEO）成为每一个站长不可或缺的技能。今天我们将针对狼蚁网站的SEO优化，分享一些实用的源码和技巧。以下源码仅供参考和学习之用。

二、源码展示与

延时函数

我们看到有一个用于产生延时的函数 `sleep`。该函数返回一个新的Promise对象，利用setTimeout函数实现延时功能。这对于处理异步操作非常有用。

Puppeteer的使用

接下来，我们看到了使用Puppeteer进行网页操作的代码。Puppeteer是一个Node库，可以通过模拟用户操作来与网页进行交互。以下是一些主要步骤：

1. 启动浏览器实例。

2. 打开新的页面并设置JavaScript为启用状态。

3. 导航到狼蚁网站（这里使用了占位符URL）。

4. 定位到搜索框并输入关键词。

5. 点击搜索按钮。

6. 等待搜索结果页面加载。

7. 获取搜索结果链接并模拟点击。

页面处理与截图

接下来的代码主要是处理页面和进行截图。由于页面可能包含大量内容，所以需要进行滚动操作以确保所有内容都加载完毕。然后，使用Puppeteer的截图功能对整个页面进行截图。需要注意的是，由于Puppeteer的截图功能存在限制，超出一定高度的部分可能无法被正确截图。

以上就是狼蚁网站SEO优化的源码展示与。希望这些内容对大家的学习有所帮助，也希望大家能从中获得灵感，进一步提升自己的SEO技能。别忘了关注狼蚁SEO，获取更多实用信息。感谢大家的支持！如果您有任何疑问或建议，欢迎与我们交流。让我们一起学习进步！

免责声明：以上源码仅供参考和学习之用，如有任何损失或损害，本站不承担任何责任。请根据实际情况谨慎使用。

上一篇：AngularJS中run方法的巧妙运用下一篇：没有了

详解Puppeteer 入门教程

狼蚁网络搜索

狼蚁网络导航

长沙seo优化

长沙网络营销

长沙网站建设

详解Puppeteer 入门教程

编程语言

狼蚁网络搜索

狼蚁网络导航

长沙seo优化

长沙网络营销

长沙网站建设