Cloudflare vừa phát hành một endpoint /crawl và mọi người đang mất kiểm soát.


bình tĩnh đi. để tôi nói cho bạn nó thực sự là gì, nó không phải là gì, và tại sao bạn có lẽ không cần nó.

endpoint /crawl là một wrapper. bạn cho nó một URL, nó khởi động các headless browser trên infra của Cloudflare, theo dõi các liên kết, render JavaScript, và trả lại cho bạn markdown hoặc JSON. tất cả chỉ với 1 API call.

nó cool nhưng không phải cách mạng.

firecrawl làm cái này. crawl4AI làm cái này. spider làm cái này. họ đã làm nó trong nhiều tháng. cloudflare chỉ thêm nó vào sản phẩm Browser Rendering hiện có của họ và mọi người acting như họ đã phát minh ra crawling.

cái thực sự thú vị là: nó là cloudflare. điều đó có nghĩa nó rẻ ($0.09/hour).

nhưng vấn đề là bạn có lẽ thậm chí không cần một crawler.

có 8 cách mà một AI agent có thể đọc một trang web. hầu hết nhảy thẳng vào những cách phức tạp khi một HTTP request 50ms sẽ giải quyết được công việc. vì vậy hãy phân tích tất cả, từ đơn giản nhất đến quá kỹ nhất.

1. raw HTTP fetch
agent của bạn gửi một request, nhận lại HTML. đó là nó.
giống như đọc mã nguồn của một cuốn sách thay vì trang in. hoạt động tốt với các trang đơn giản, blog, wiki, docs. breaks trên bất cứ thứ gì sử dụng JavaScript để tải nội dung.
tốc độ: ~50ms. chi phí: miễn phí.

2. readability parser
cùng một điều, nhưng có bước làm sạch. loại bỏ nav bar, quảng cáo, footer, cookie banner. chỉ cho bạn văn bản bài viết sạch sẽ dưới dạng markdown.

không xử lý nội dung được render bằng JavaScript. nhưng đối với bài viết và docs, nó hoàn hảo, và đó là cái tôi sử dụng hàng ngày.
tốc độ: ~100ms. chi phí: miễn phí.

3. headless browser (local)
khởi động một Chrome không nhìn thấy được tải trang như một con người sẽ làm. JavaScript chạy, nội dung render, mọi thứ tải. bạn có thể click, scroll, fill form, đăng nhập.

vấn đề: chậm (2-10s), tiêu tốn ~200MB RAM cho mỗi instance, và bạn phải maintain infra.
tools: Playwright, Puppeteer, Selenium.

4. cloud browser API
cùng như #3 nhưng ai đó khác chạy trình duyệt. bạn gửi một URL, nhận lại trang được render. đây là nơi /crawl của Cloudflare sống, cùng với Browserbase và Steel.
không có headache infra, scales dễ dàng, rẻ. tradeoff: kiểm soát ít hơn trên các interactions.

5. managed scraping API
đây là mức độ anti-bot warfare. ScrapingBee, Bright Data, rotating proxy, giải CAPTCHA, residential IP. cho khi trang web chủ động chống lại bạn.
hoạt động. chi phí $49-499+/tháng.

6. AI-native crawler
Firecrawl, Crawl4AI, Spider. crawl + render + auto-convert thành clean markdown/JSON. built cho RAG pipeline. định nghĩa extraction schema bằng ngôn ngữ tự nhiên.
"làn sóng mới" mà Cloudflare hiện đang cạnh tranh.

7. LLM extraction
bỏ qua code hoàn toàn. dump nội dung trang vào một LLM, hỏi "giá là bao nhiêu?" bằng tiếng Anh đơn giản. không có CSS selector, không có regex, không có maintenance khi trang web redesign.
nhược điểm: đắt tiền ở quy mô (token tích lũy nhanh). tốt nhất như bước cuối cùng sau khi làm sạch bằng các phương pháp 1-6.

8. official API
cái mà mọi người quên. X, Reddit, hầu hết SaaS, họ có API. dữ liệu có cấu trúc, không parse, không anti-bot game. khi một API tồn tại, nó luôn là lựa chọn đúng.

setup tốt kết hợp 2-3:
→ fetch → readability → LLM cho extraction bài viết rẻ tiền
→ cloud browser → LLM cho các trang heavy JavaScript
→ sniff API thực tế trong DevTools → gọi nó trực tiếp, thánh grail, free, nhanh nhất, đáng tin cậy nhất
→ AI crawler → vector DB cho toàn bộ knowledge base

chi phí thực tế ở 10,000 trang/tháng
• HTTP Fetch: $0
• Jina Reader: $0
• Cloudflare Browser: ~$5
• Spider: ~$4.80
• Firecrawl: $47/tháng
• ScrapingBee: $49-147/tháng
• Bright Data: $499+/tháng

2 quy tắc tôi tuân theo:
bắt đầu đơn giản. API > fetch > readability > browser. chỉ thêm phức tạp khi phương pháp đơn giản hơn không thành công. tôi thấy mọi người spin up Playwright cho các trang nơi curl hoạt động tốt.

hầu hết các trang không cần JS rendering. 60%+ của web là static hoặc server-rendered. kiểm tra với một simple fetch trước.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.43KNgười nắm giữ:2
    0.01%
  • Vốn hóa:$2.45KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.44KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.48KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.49KNgười nắm giữ:2
    0.00%
  • Ghim