Как парсить все страницы интернет-магазина, кроме карточек товаров?

Виталий Литвинов
Виталий Литвинов
  • Сообщений: 12
  • Последний визит: 5 апреля 2025 в 14:06

Создаю веб-краулера, который автоматически собирает контактную информацию с заданного списка интернет-магазинов чтоб потом добовлять все в наш Интернет-магазин, работающий на DST Store. Контакты, как правило, находятся в шапке/подвале сайта или на странице контактной информации. С шапкой/подвалом (главная страница) все понятно, а вот как можно распознать страницу контактов? Нужно как-то переходить по всем страницам сайта, кроме карточек товаров, и через RegExp получать все Email, ссылки на телеграм, соцсети и т. д. Карточек может быть огромнейшее количество, поэтому их нужно как-то отфильтровать. Как это сделать?

Fresh Sound
Fresh Sound
  • Сообщений: 10
  • Последний визит: Вчера в 18:11

А ты глазами как распознаешь страницу с контактами?

По содержимому. Наличие или отсутствие определенного текста более чем достаточно.

Самый универсальный метод даже там где сайты генерируют контент на js и весь интерфейс гуляет туда сюда, а классы именуют случайно, типа как на ozon и кучи других топовых сайтов, только по содержимому и спасаешься (я еще в анализ включаю координаты элемента на экране, чтобы между элементами можно было задавать вопрос — найди все дивы что справа от элемента с текстом блаблабла

p.s. регулярки это прошлыв век, очень мало сайтов позволят себя так просто анализировать.

Обычно сайт парсят как xml/html с помощью любого парсера на твой выбор и язык (например для php я часто пользовался simplehtmldom но часто и штатных xml парсеров хватает

ну а если сайт генерируется динамически на js то мне больше нравится инжектить на страницу свой javascript в полноценном браузере 

Дарья Ефимова
Дарья Ефимова
  • Сообщений: 4
  • Последний визит: 1 апреля 2025 в 10:14

Для распознавания страницы с контактами в веб-краулере можно использовать анализ содержимого страниц.

Один из способов — определить страницу по наличию или отсутствию определённого текста. Этот метод универсален, даже если сайт генерирует контент на JavaScript и имеет динамический интерфейс.

Также можно включить в анализ координаты элементов на экране. Это позволит, например, найти все div-элементы, которые находятся справа от определённого элемента.

Для создания веб-краулера можно использовать различные технологии и библиотеки, например Node.js и JavaScript.

Авторизуйтесь, чтобы писать на форуме.

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон