<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[GPT-5.4 Native Computer Use: парсеры без Selenium от скриншотов к кликам]]></title><description><![CDATA[<p dir="auto"><img src="/assets/uploads/files/75/07/e6/1774711066403-generated_1774711037511.webp" alt="Обложка: GPT-5.4 Native Computer Use для автоматизации браузер-интенсивных парсеров: от скриншотов к кликам без Selenium-костылей" class=" img-fluid img-markdown" /></p>
<p dir="auto">Все, кто пилил парсеры под браузерные сайты, знают эту боль: Selenium тормозит, Puppeteer жрет ресурсы, а сайты с капчами и динамикой просто убивают скрипты. Я недавно тестил GPT-5.4 с его <strong>native computer use</strong> - и это реальный прорыв для автоматизации. Теперь ИИ сам кликает, скроллит и парсит без костылей, понимая скриншоты как человек. Забудьте про headless-браузеры - модель сама управляет мышью и клавиатурой, бьет 75% на OSWorld-Verified, обходя даже людей (72.4%).</p>
<p dir="auto"><strong>Проблема, которую это решает:</strong> Бизнесу нужны лиды с 100+ порталов типа HOA или налоговых сайтов. Раньше - 73-79% успеха с кучей токенов и времени. С GPT-5.4 - 95% с первого раза, 100% за три, в 3 раза быстрее и на 70% меньше токенов. CEO Mainstay это подтвердил на своих 30K задачах. Для фрилансера или стартапа это профит: парсер под риелторские сайты или маркетплейсы запускается за часы, а не недели.</p>
<p dir="auto">Как это работает? Модель видит скриншот, локализует элементы, кликает и печатает. Поддерживает 1M токенов контекста - планирует длинные цепочки задач. Плюс steerable поведение: через developer messages настраиваешь под свой кейс, даже safety с подтверждениями. В API и Codex уже доступно, в ChatGPT - GPT-5.4 Thinking и Pro.</p>
<p dir="auto"><strong>Практика на TS с OpenAI API.</strong> Вот как запустить простого агента для парсинга цен с сайта. Используем Playwright для скринов, но GPT-5.4 сам генерит действия.</p>
<pre><code class="language-typescript">import OpenAI from 'openai';

const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

async function parsePrices(url: string) {
  // Шаг 1: Скрин текущей страницы
  const screenshot = await takeScreenshot(url); // Ваша функция с Playwright
  
  // Шаг 2: Промпт для GPT-5.4
  const response = await openai.chat.completions.create({
    model: 'gpt-5.4',
    messages: [
      { role: 'system', content: 'Ты агент для парсинга. Анализируй скриншот, описывай действия: клик по x,y, текст для ввода. Цель: собрать цены товаров.' },
      { role: 'user', content: [`Скрин: ${screenshot.toDataURL()}`, 'URL: ' + url, 'Найди и кликни поиск, введи "iPhone", собери цены.'].join('\n') }
    ],
    tools: [{ type: 'computer_use' }] // Native computer use
  });
  
  const actions = response.choices.message.content;
  // Парсим действия и исполняем: клики, ввод
  await executeActions(actions);
  return extractPrices();
}
</code></pre>
<p dir="auto">Этот код - база. Добавьте loop для верификации. <strong>Ключевой промпт:</strong> “Анализируй скриншот визуально. Координаты клика: x,y. Если не уверен - запроси новый скрин. Избегай ошибок локализации, фокусируйся на high detail mode.” Работает на original/high деталях лучше всего.</p>
<p dir="auto"><strong>Лайфхаки для продакшена:</strong></p>
<ul>
<li>Используйте 1M контекст для multi-app: Excel -&gt; браузер -&gt; Sheets.</li>
<li>Для бизнеса: spreadsheet modeling на 87.3% (vs 68% у 5.2) - генерит таблицы лидов авто.</li>
<li>Tool search via Codex: модель сама находит нужные инструменты.</li>
<li>Настройте confirmation policies: для рисковых парсеров - double-check перед кликом.</li>
</ul>
<p dir="auto"><strong>Минусы честно:</strong> Цена API не дешевая - 1M токенов жрет бюджет, стандартный контекст 272K. На coding не огромный скачок vs 5.3 (1% на OSWorld extra high). Зависит от качества скринов: low-res - ошибки. Плюс enterprise фокус - для солоразраба лимиты могут кусаться.</p>
<p dir="auto"><strong>Плюсы перевешивают:</strong> 83% на knowledge-work бенчмарках, меньше ошибок, быстрее агенты. Для парсеров - game changer: от скриншотов к реальным кликам без Selenium. Я уже мигрирую свои боты под риелт и e-com.</p>
<h2>А вы уже тестите?</h2>
<p dir="auto">Переходите на GPT-5.4 или держитесь за Puppeteer? Какие кейсы сломали старые инструменты, и как парсите динамику? Делитесь в коммах - обсудим реальные API-хаки.</p>
]]></description><link>https://forum.exlends.ru/topic/1989/gpt-5.4-native-computer-use-parsery-bez-selenium-ot-skrinshotov-k-klikam</link><generator>RSS for Node</generator><lastBuildDate>Wed, 20 May 2026 19:40:50 GMT</lastBuildDate><atom:link href="https://forum.exlends.ru/topic/1989.rss" rel="self" type="application/rss+xml"/><pubDate>Sat, 28 Mar 2026 15:17:47 GMT</pubDate><ttl>60</ttl></channel></rss>