Я решил запустить новый курс в котором мы изучим парсинг и поучимся писать свои парсеры, которые будут доставать данные со сторонних сайтов, а после эту информацию обрабатывать. В интернете я не нашел точного определения парсинга. Приближенное определения звучит так…
Парсинг — это инструмент работы со строковыми данными. Строковая информация может быть текстом, ссылкой на страницу или на изображение.
Для того чтобы достать информацию с сайта, мы делаем запрос на страницу и достаем HTML код, с которым сможем легко работать.
Для реализации этого есть 2 основных способа. С помощью функции file_get_contents
или с помощью специальной библиотеки CURL. Основные способы, потому что их используют чаще всего, но это не значит что они являются единственными.
Давайте в этой записи попробует забрать информацию с выбранной страницы. Для примера я возьму главную страницу нашего любимого Prog-Time — http://prog-time.ru
Скопируйте адрес этой страницы и вставьте в функцию, как это сделал я.
echo file_get_contents('http://prog-time.ru');
Сделав это вы получите HTML код главной страницы этого сайта. Иногда выбрав страницу, вы можете получить HTML код без стилей, это связанно с тем что стили находятся в других файлах или ссылки на файлы имеют относительный путь.
В первой записи мы с вами разобрали только теорию, дальше вы научитесь доставать конкретные блоки и записывать информацию в переменные для дальнейшей обработки.
Для чего нужен парсинг
Часто парсинг используют чтобы перенести информацию со стороннего сайта на свой сайт.
Это могут быть курсы валют, погода или какая либо другая не значимая информация, которую можно забрать, чтобы постоянно ее не редактировать.
Как правило прописывают парсеры с динамичной работой. Прописав один раз, при каждом запросе он будет проверять и по необходимости обновлять информацию на сайте.
Так же парсеры часто используют если нужно заполнить каталог товаров или перенести какую либо другую информацию со старого сайта на новый.