当前位置:首页 > 科技  > 软件

直接把任意网站变为 API 接口?Firecrawl有点牛了!

来源: 责编: 时间:2024-07-19 07:56:08 114观看
导读Hello,大家好,我是 Sunday。最近看到了一个爬虫类框架:firecrawl 号称 可以抓取任何网站并将其转换为干净的 markdown 或结构化数据。并且可以直接通过 Node 进行部署。看这样的描述有点厉害了,所以,咱们今天就来看看这个

Hello,大家好,我是 Sunday。xvh28资讯网——每日最新资讯28at.com

最近看到了一个爬虫类框架:firecrawl 号称 可以抓取任何网站并将其转换为干净的 markdown 或结构化数据。并且可以直接通过 Node 进行部署。xvh28资讯网——每日最新资讯28at.com

看这样的描述有点厉害了,所以,咱们今天就来看看这个 firecrawlxvh28资讯网——每日最新资讯28at.com

01:什么是 firecrawl

firecrawl 是一种 API 服务,它获取 URL、对其进行抓取并将其转换为干净的 markdown 或结构化数据。我们会抓取所有可访问的子页面并为您提供每个子页面的干净数据。无需站点地图。xvh28资讯网——每日最新资讯28at.com

目前 Firecrawl 开源 3周 的时间,已经有了 7.9K 的 star 数,可以说是一个优秀的项目了xvh28资讯网——每日最新资讯28at.com

图片图片xvh28资讯网——每日最新资讯28at.com

获取秘钥在这里注册并获取:https://www.firecrawl.dev/pricingxvh28资讯网——每日最新资讯28at.com

有了秘钥之后,可以直接基于 Node 包创建项目即可:xvh28资讯网——每日最新资讯28at.com

  1. 安装依赖包 npm install @mendable/firecrawl-js
  2. 将 API 密钥设置为命名的环境变量FIRECRAWL_API_KEY或将其作为参数传递给FirecrawlApp类
  3. 如要抓取单个 URL ,可直接通过 scrapeUrl 方法
try {  const url = "https://example.com";  const scrapedData = await app.scrapeUrl(url);  console.log(scrapedData);} catch (error) {  console.error("Error occurred while scraping:", error.message);}
  1. 如要爬取网站信息,可以直接通过 crawlUrl 方法。该方法以起始 URL 和可选参数作为参数。该params参数允许您为抓取作业指定其他选项,例如要抓取的最大页面数、允许的域和输出格式。
const crawlUrl = "https://example.com";const params = {  crawlerOptions: {    excludes: ["blog/"],    includes: [], // leave empty for all pages    limit: 1000,  },  pageOptions: {    onlyMainContent: true,  },};const waitUntilDone = true;const timeout = 5;const crawlResult = await app.crawlUrl(  crawlUrl,  params,  waitUntilDone,  timeout);
  1. 可以通过 checkCrawlStatus 方法检查爬取状态
const status = await app.checkCrawlStatus(jobId);console.log(status);
  1. 使用 LLM 可自动格式化所有数据
import FirecrawlApp from "@mendable/firecrawl-js";import { z } from "zod";const app = new FirecrawlApp({  apiKey: "fc-YOUR_API_KEY",});// Define schema to extract contents intoconst schema = z.object({  top: z    .array(      z.object({        title: z.string(),        points: z.number(),        by: z.string(),        commentsURL: z.string(),      })    )    .length(5)    .describe("Top 5 stories on Hacker News"),});const scrapeResult = await app.scrapeUrl("https://news.ycombinator.com", {  extractorOptions: { extractionSchema: schema },});console.log(scrapeResult.data["llm_extraction"]);
  1. 使用该 search 方法,您可以在搜索引擎中搜索查询并获取排名靠前的结果以及每个结果的页面内容。该方法将查询作为参数并返回搜索结果。
const query = "what is mendable?";const searchResults = await app.search(query, {  pageOptions: {    fetchPageContent: true, // 获取每个搜索结果的页面内容  },});


xvh28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-101703-0.html直接把任意网站变为 API 接口?Firecrawl有点牛了!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 为什么StampedLock会导致CPU100%?

下一篇: 深入理解 JavaScript 中的 With 语句

标签:
  • 热门焦点
  • 5月iOS设备好评榜:iPhone 14仅排第43?

    5月iOS设备好评榜:iPhone 14仅排第43?

    来到新的一月,安兔兔的各个榜单又重新汇总了数据,像安卓阵营的榜单都有着比较大的变动,不过iOS由于设备的更新换代并没有那么快,所以相对来说变化并不大,特别是iOS好评榜,老款设
  • 十个可以手动编写的 JavaScript 数组 API

    十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • 三言两语说透设计模式的艺术-单例模式

    三言两语说透设计模式的艺术-单例模式

    写在前面单例模式是一种常用的软件设计模式,它所创建的对象只有一个实例,且该实例易于被外界访问。单例对象由于只有一个实例,所以它可以方便地被系统中的其他对象共享,从而减少
  • 学习JavaScript的10个理由...

    学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 如何使用JavaScript创建一只图像放大镜?

    如何使用JavaScript创建一只图像放大镜?

    译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站,可能遇到过图像放大功能。它可以让您放大图像的特定区域,以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
  • 微软邀请 Microsoft 365 商业用户,测试视频编辑器 Clipchamp

    微软邀请 Microsoft 365 商业用户,测试视频编辑器 Clipchamp

    8 月 1 日消息,微软近日宣布即将面向 Microsoft 365 商业用户,开放 Clipchamp 应用,邀请用户通过该应用来编辑视频。微软于 2021 年收购 Clipchamp,随后开始逐步整合到 Microsof
  • 微博大门常打开,迎接海外画师漂洋东渡

    微博大门常打开,迎接海外画师漂洋东渡

    作者:互联网那些事“起猛了,我能看得懂日语了”。“为什么日本人说话我能听懂?”“中文不像中文,日语不像日语,但是我竟然看懂了”…&hell
  • 滴滴违法违规被罚80.26亿 共存在16项违法事实

    滴滴违法违规被罚80.26亿 共存在16项违法事实

    滴滴违法违规被罚80.26亿 存在16项违法事实开始于2121年7月,历经一年时间,网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信
  • 联想的ThinkBook Plus下一版曝光,键盘旁边塞个平板

    联想的ThinkBook Plus下一版曝光,键盘旁边塞个平板

    ThinkBook Plus 是联想的一个特殊笔记本类别,它在封面放入了一块墨水屏,也给人留下了较为深刻的印象。据有人爆料,联想的下一款 ThinkBook Plus 可能更特殊,它
Top
Baidu
map