Cloudflare щойно випустив endpoint /crawl, і всі божеволіють.


заспокойтеся. дайте мені розповісти вам, що це насправді, що це не є, і чому вам, ймовірно, це не потрібно.
endpoint /crawl — це обгортка. ви даєте йому URL, він запускає headless браузери на інфраструктурі Cloudflare, переходить за посиланнями, рендерить JavaScript і повертає вам markdown або JSON. все одним викликом API.
це круто, але не революційно.
Firecrawl робить це. Crawl4AI робить це. Spider робить це. вони роблять це вже місяцями. Cloudflare просто додав це до свого існуючого продукту Browser Rendering, і всі вчинили так, ніби вони винайшли краулінг.
що СПРАВДІ цікаво: це Cloudflare. це означає, що це дешево ($0.09/час).
але справа в тому, що вам, ймовірно, взагалі не потрібен краулер.
є 8 способів, як AI агент може прочитати веб-сторінку. більшість одразу переходять до складних, коли 50ms HTTP запиту було б достатньо. тому давайте розберемо їх усі, від найпростіших до найскладніших.
1. сирий HTTP fetch
ваш агент надсилає запит, отримує HTML. всього лиш.
як читати вихідний код книги замість надрукованої сторінки. чудово працює для простих сайтів, блогів, вікі, документів. ламається на будь-чому, що використовує JavaScript для завантаження контенту.
швидкість: ~50ms. вартість: безплатно.
2. readability парсер
те саме, але з кроком очищення. видаляє навігаційні панелі, рекламу, нижні колонтитули, баннери cookies. дає вам просто текст статті в чистому markdown.
не обробляє контент, рендерений JavaScript. але для статей і документів це ідеально, і це те, що я використовую щодня.
швидкість: ~100ms. вартість: безплатно.
3. headless браузер (локально)
запускає невидимий Chrome, який завантажує сторінку як людина. JavaScript виконується, контент рендерується, все завантажується. ви можете клікати, прокручувати, заповнювати форми, входити.
проблема: повільно (2-10s), з'їдає ~200MB RAM на один екземпляр, і ви обслуговуєте інфраструктуру.
інструменти: Playwright, Puppeteer, Selenium.
4. cloud браузер API
те саме, що #3, але хтось інший запускає браузер. ви надсилаєте URL, отримуєте назад рендерену сторінку. саме тут живе /crawl Cloudflare, разом з Browserbase і Steel.
жодних проблем з інфраструктурою, легко масштабується, дешево. компроміс: менше контролю над взаємодіями.
5. керований scraping API
це рівень боротьби проти anti-bot. ScrapingBee, Bright Data, ротуючі проксі, розв'язування CAPTCHA, резидентні IP адреси. для коли сайт активно боротися з вами.
працює. коштує $49-499+/місяць.
6. AI-native краулер
Firecrawl, Crawl4AI, Spider. краулінг + рендеринг + автоперетворення на чистий markdown/JSON. розроблені для RAG конвеєрів. визначте схеми екстракції природною мовою.
"нова хвиля", з якою Cloudflare тепер конкурує.
7. LLM екстракція
пропустіть код зовсім. залийте вміст сторінки в LLM, запитайте "яка ціна?" простою англійською. жодних CSS селекторів, жодного regex, жодного обслуговування, коли сайт переробляється.
недолік: дорого в масштабі (токени швидко накопичуються). найкраще як останній крок після очищення методами 1-6.
8. офіційні API
та, яку забувають. X, Reddit, більшість SaaS, у них є API. структуровані дані, жодного парсингу, жодних anti-bot ігор. коли API існує, це завжди правильний вибір.
хороші установки поєднують 2-3:
→ fetch → readability → LLM для дешевої екстракції статей
→ cloud браузер → LLM для сайтів з багатьма JavaScript
→ розшифруйте реальний API в DevTools → викличте його безпосередньо, святий грааль, безплатно, найшвидше, найнадійніше
→ AI краулер → vector DB для повних баз знань
реальні вартості при 10,000 сторінок/місяць
• HTTP Fetch: $0
• Jina Reader: $0
• Cloudflare Browser: ~$5
• Spider: ~$4.80
• Firecrawl: $47/місяць
• ScrapingBee: $49-147/місяць
• Bright Data: $499+/місяць
2 правила, яким я дотримуюся:
почніть з простого. API > fetch > readability > браузер. додавайте складність лише коли простіший метод не працює. я бачу, як люди запускають Playwright для сайтів, де curl працює чудово.
більшій частині сайтів не потрібен JS рендеринг. 60%+ мережі це статичний або server-rendered контент. спочатку протестуйте простим fetch.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити