无需三步编写代码即可刮取Amazon产品页面(PDP)

无需三步编写代码即可刮取Amazon产品页面(PDP)

时间:2020-11-14 作者:gykj

如今,当电子商务蓬勃发展时,为了在这种竞争性游戏中生存下去,抓取电子商务网站以获取“替代数据”变得至关重要。一些人在此数据中应用了AI和文本分析,以提取消费者的见解和竞争情报,而另一些人则依赖此数据来优化其定价。

在大多数情况下,Web抓取需要设置无头浏览器(如Puppeteer或Selenium)并将其配置为从所需页面中获取正确的内容。在我以前的一篇文章中,我介绍了一些操纵up的技巧,以避免被发现。这次,我将尝试介绍如何无需编码即可收集电子商务数据。

在本教程中,我将引导您逐步刮取Amazon产品详细信息页面,而无需设置服务器或使用Integromat和Scrapezone编写任何代码。

为了涵盖此基本练习,此小程序的目的是每天刮取Amazon产品URL的列表,并将结果发送到我们选择的电子邮件地址。 福州小程序开发公司

步骤1:建立帐户

有两个用于此过程的基本工具:IntegromatScrapezone;两者都可以免费注册,并且可以免费运行前几个初步工作。

此处开始创建免费的Integromat帐户。

下一步是创建一个免费的Scrapezone帐户。在此处注册新帐户,然后复制显示在仪表板主页上“ API信息”选项卡中的用户名/密码详细信息。

第2步:创建抓取收货方案

现在您已经在这两个工具中都有一个帐户,下一步将是在Integromat中创建一个方案。登录到Ingegromat并选择“创建新方案”:

搜索webhook,然后单击“继续”。

单击“自定义Webhook”,添加新的Webhook,然后将钩子地址复制到剪贴板。

该Webhook将收到ScrapeZone的抓取结果。

为了允许Integromat定义传入的数据结构,让我们使用此Webhook发送样本抓取请求。

打开终端并输入以下内容(确保将Webhook URL粘贴到“ callback_url”字段中:

爪哇

 

1个
卷曲 -用户 MyScrapingPassword  \
2

3
-标头 “ Content-Type:应用程序/ json”  \
4

5
-请求 POST  \
6

7
-数据 '{“ query”:[“ https://amazon.com/dp/B08J65DST5”,“ https://amazon.com/dp/B08J65DST5”],“ scraper_name”:“ amazon_product_display”,“ callback_url” :<在此处粘贴webhook网址>”}'  \
8

9
HTTPS//api.scrapezone.com/scrape

等待30-60秒,然后将结果发送回Integromat。状态应更改为“成功确定”。

现在,将结果发送到我们的电子邮件地址。

点击“添加其他模块”。

然后选择电子邮件->发送电子邮件。

您将需要将您的电子邮件地址配置为连接;这很简单。

选择“收件人”的首选电子邮件地址,然后选择“抓取结果”作为主题。

对于内容,请选择“ parsed_results_csv”-接收带有抓取结果的CSV文件。

如果愿意,请选择parsed_results_json以接收JSON结果文件。

单击“确定”,将方案重命名为“抓取结果”,然后单击“保存”。

现在,您可以通过重新发送curl请求来测试方案。

步骤3:创建计划的报废方案

由于我们要创建每天的抓取,因此我们将创建一个方案,该方案将HTTP请求发送到ScrapeZone以启动抓取任务。

从菜单中选择“ HTTP”,然后“进行基本身份验证请求”。

对于凭据,请单击“添加”,然后从Scrapzone仪表板输入您的抓取用户名和密码。

填写以下详细信息:

网址:https://api.scrapezone.com/scrape

身体类型:未加工

内容类型:JSON(应用程序/ json)

要求内容: 

爪哇

 


1个
{ “查询”:[ “https://amazon.com/dp/B08J65DST5” “https://amazon.com/dp/B08J65DST5” ],“scraper_name” “amazon_product_display” “callback_url”<粘贴  webhook 网址 在这里>  }

要计划任务,请单击时钟图像,然后选择您喜欢的计划。

获取数据和结论

就这样!要测试所有内容,请确保两个场景都已打开,转到请求发送场景,然后单击蓝色的“播放”按钮。

您可以在Scrapezone信息中心中看到抓取进度。

抓取完成后,结果将发送到您的电子邮件地址或可从其仪表板下载。

本指南是一个非常简单的Web抓取场景的示例,但可以轻松地应用于更复杂的过程和定期爬网。我希望它能给您一些使用这些工具的组合的想法。

版权所有:https://www.eraycloud.com 转载请注明出处