如今,当电子商务蓬勃发展时,为了在这种竞争性游戏中生存下去,抓取电子商务网站以获取“替代数据”变得至关重要。一些人在此数据中应用了AI和文本分析,以提取消费者的见解和竞争情报,而另一些人则依赖此数据来优化其定价。
在大多数情况下,Web抓取需要设置无头浏览器(如Puppeteer或Selenium)并将其配置为从所需页面中获取正确的内容。在我以前的一篇文章中,我介绍了一些操纵up的技巧,以避免被发现。这次,我将尝试介绍如何无需编码即可收集电子商务数据。
在本教程中,我将引导您逐步刮取Amazon产品详细信息页面,而无需设置服务器或使用Integromat和Scrapezone编写任何代码。
为了涵盖此基本练习,此小程序的目的是每天刮取Amazon产品URL的列表,并将结果发送到我们选择的电子邮件地址。 福州小程序开发公司
步骤1:建立帐户
有两个用于此过程的基本工具:Integromat和Scrapezone;两者都可以免费注册,并且可以免费运行前几个初步工作。
从此处开始创建免费的Integromat帐户。
下一步是创建一个免费的Scrapezone帐户。在此处注册新帐户,然后复制显示在仪表板主页上“ API信息”选项卡中的用户名/密码详细信息。
第2步:创建抓取收货方案
现在您已经在这两个工具中都有一个帐户,下一步将是在Integromat中创建一个方案。登录到Ingegromat并选择“创建新方案”:
搜索webhook,然后单击“继续”。
单击“自定义Webhook”,添加新的Webhook,然后将钩子地址复制到剪贴板。
该Webhook将收到ScrapeZone的抓取结果。
为了允许Integromat定义传入的数据结构,让我们使用此Webhook发送样本抓取请求。
打开终端并输入以下内容(确保将Webhook URL粘贴到“ callback_url”字段中:
卷曲 -用户 名:MyScrapingPassword \
-标头 “ Content-Type:应用程序/ json” \
-请求 POST \
-数据 '{“ query”:[“ https://amazon.com/dp/B08J65DST5”,“ https://amazon.com/dp/B08J65DST5”],“ scraper_name”:“ amazon_product_display”,“ callback_url” :<在此处粘贴webhook网址>”}' \
HTTPS://api.scrapezone.com/scrape
等待30-60秒,然后将结果发送回Integromat。状态应更改为“成功确定”。
现在,将结果发送到我们的电子邮件地址。
点击“添加其他模块”。
然后选择电子邮件->发送电子邮件。
您将需要将您的电子邮件地址配置为连接;这很简单。
选择“收件人”的首选电子邮件地址,然后选择“抓取结果”作为主题。
对于内容,请选择“ parsed_results_csv”-接收带有抓取结果的CSV文件。
如果愿意,请选择parsed_results_json以接收JSON结果文件。
单击“确定”,将方案重命名为“抓取结果”,然后单击“保存”。
现在,您可以通过重新发送curl请求来测试方案。
步骤3:创建计划的报废方案
由于我们要创建每天的抓取,因此我们将创建一个方案,该方案将HTTP请求发送到ScrapeZone以启动抓取任务。
从菜单中选择“ HTTP”,然后“进行基本身份验证请求”。
对于凭据,请单击“添加”,然后从Scrapzone仪表板输入您的抓取用户名和密码。
填写以下详细信息:
网址:https://api.scrapezone.com/scrape
身体类型:未加工
内容类型:JSON(应用程序/ json)
要求内容:
{ “查询”:[ “https://amazon.com/dp/B08J65DST5” ,“https://amazon.com/dp/B08J65DST5” ],“scraper_name” :“amazon_product_display” ,“callback_url”:<粘贴 的 webhook 网址 在这里> ” }
要计划任务,请单击时钟图像,然后选择您喜欢的计划。
获取数据和结论
就这样!要测试所有内容,请确保两个场景都已打开,转到请求发送场景,然后单击蓝色的“播放”按钮。
您可以在Scrapezone信息中心中看到抓取进度。
抓取完成后,结果将发送到您的电子邮件地址或可从其仪表板下载。
本指南是一个非常简单的Web抓取场景的示例,但可以轻松地应用于更复杂的过程和定期爬网。我希望它能给您一些使用这些工具的组合的想法。