Источник: vc.ru
Рассказ SEO-специалистов агрегатора цен Price.ru Михаила Жуковца, Дениса Рудакова и Андрея Крамаренко.
По данным «Яндекс.Метрики», с июня 2016 года по июнь 2017 года посещаемость сервиса сравнения товаров и цен Price.ru выросла в 2,3 раза, а индексирование в поисковиках достигло семи миллионов страниц в поисковой системе «Яндекс.Метрики» (суммарно по всем региональным поддоменам) и 1,6 млн в поисковой системе Google.
Мы реализовали проект кластеризации, чтобы создать группы товаров, и создали с помощью нейросетей 400 тысяч моделей. Они приносят 15% органического трафика, и мы фиксируем устойчивый рост трафика. Но летом 2016 года падение продолжалось пять месяцев подряд, и нам казалось, что все усилия были зря. Несколько раз пришлось применить подробные методы. Ниже мы расскажем, что делали для улучшения показателей.
Система внутренних ссылок
Мы добавили блоки перенаправления на все типы страниц и изменили систему внутренних ссылок сайта. Вместо размещения одинаковых ссылок на всех страницах мы разбили их на темы и распределили по сайту с учетом важности для пользователя.
Если страница популярная (как категория «Мобильные телефоны») и может быть полезна посетителям другой категории («Стиральные машины»), мы размещаем на ней ссылку. Чтобы определить, будет ли ссылка полезной, мы используем алгоритмы, схожие с механизмом коллаборативной фильтрации (построение рекомендаций для неизвестного пользователя на основе данных о группе знакомых пользователей — vc.ru).
Если аудитории категорий «Детские кроватки» и «Коляски» в достаточной мере пересекаются, нужно разместить в категориях перекрестные ссылки. Если пересечение покупательских аудиторий для перфораторов и спиннеров незначительно, то, скорее всего, эти разделы посещают разные люди.
Для реализации проекта мы создали внутренний инструмент, который позволяет SEO-отделу контролировать наличие ссылок на любой странице, их положение и текст.
Эта система позволила понять, как внутренняя система ссылок влияет на появление контрольной группы страниц в поисковой выдаче «Яндекса» (выделен синим) и Google (выделен красным). Вертикальная шкала определяет количество индексированных страниц.
Хронология действий
- 6 мая 2017 года — поставили блоки перенаправления.
- Конец мая 2017 года — из всех ссылок блока исчез атрибут “href”, ссылки пропали.
- 3 июня 2017 года — ссылки восстановили.
- 10 июня 2017 года — изменили систему перенаправления, сократили количество внешних ссылок.
- 18 июля 2017 года — удвоили количество исходящих ссылок на страницы тегов.
Выводы
- При отсутствии внешних ссылок блок перенаправления значительно влияет на индексацию страниц.
- Благодаря системе внутренних ссылок можно увеличить уровень индексации сайта (в нашем случае произошел рост с 600 тысяч до семи миллионов страниц).
Удаление лишнего контента и добавление полезного
Мы убрали повторяющийся контент, который содержал служебные и неинформативные данные. Только в меню сайта было около 300 исходящих анкоров (ссылок с текстом — vc.ru) на категории, которые снижали видимую полезность страницы и мешали поисковым роботам правильно определять её содержание. Наше решение позволило увеличить текстовую релевантность и улучшило способность страниц отвечать на нужные запросы.
Мы настроили механизм так, чтобы на посадочных страницах регулярно появлялись текстовые описания. Они позволяют пользователю понять, как выбрать мультиварку или смартфон. Раз в квартал мы проверяем, как изменились показатели страниц.
В первую очередь мы обращаем внимание на изменение среднесуточного трафика на каждой странице. Есть категории, где наличие текста никак не влияет на показатели, и расширять имеющиеся текстовые описания не нужно. В других разделах описания приводят к небольшому спаду. Есть также категории, где появление хороших текстов приводит к росту.
Мы отслеживаем, как в поисковых системах меняются критерии для товарных страниц, и улучшаем содержание сайта. Если появление текста приводит к росту трафика относительно метрик шаблона, мы оставляем то, что добавили. Если не приводит — переписываем.
Если роста снова не наблюдается, то мы удаляем новый текст и оставляем шаблонный. Шаблонные тексты также сравниваем с историей без описания. Мы добавили более тысячи текстов.
Рассмотрим динамику трафика после добавления текстовых описаний на примере категории швейные машинки (по данным «Яндекс.Метрики»). Синий график отражает данные о страницах раздела для брендов Janome, Brother, Veritas и Pfaff, красный — об остальных страницах категории.
На горизонтальной оси обозначены недели, а по вертикали показано относительное изменение трафика от первоначального значения (для четырех страниц это пять визитов за неделю, а для остальных адресов категории — 149 визитов).
По сравнению с показателем сентября 2017 года трафик группы страниц с текстами вырос в 26 раз, в случае с остальными текстами это было увеличение в десять раз. Уровень достоверности (P-value, вероятность ошибки при отклонении от нулевой гипотезы) различия этих значений по критерию Манна-Уитни составил 3.6e-19. Хоть это и меньше пяти процентов, такое отличие статистически значимо.
Хронология действий
- 5 октября 2016 года разместили тексты на данных страницах.
- 19 октября 2016 года разместили шаблонные тексты на остальных страницах.
Новые посадочные страницы
Мы добавили десять тысяч подборок, чтобы помочь пользователям сравнивать товары, которые сложно найти в каталоге при помощи обычных фильтров. Одна из таких подборок — «Телефоны с большими кнопкамидля пожилых людей». В ней товары объединяются согласно потребностям покупателей. Увеличить количество таких подборок с 5 до 15 тысяч удалось, когда мы кластеризовали запросы посетителей и выделили из них нетипичные связи.
Мы сравнивали запросы и выявляли наиболее частые и устойчивые. Рассмотрим пример. Мы фиксируем сочетания «купить колесные диски», «диски арбузы» и «диски арбузы отзывы». Слова «диски» и «арбузы» находятся в соотношении два к трем. Получается, что «диски арбузы» — это кандидат на новую страницу. В одном запросе эти слова могут и не встречаться.
(«Арбузы» — это литые автомобильные диски с большим выносом и характерной формой спиц. Они были популярны в 1990-х годах, и спрос на них снова растет.)
В результате наших действий относительно органического трафика доля посещений уникальных товарных подборок выросла в три раза.
Кластеризация
Мы объединяем одинаковые товары разных интернет-магазинов в модели, чтобы повысить удобство сравнения цен и качество поисковой выдачи. Самая популярная модель автомобильных шин за 2017 год — Nokian Hakkapeliitta 8.
Price.ru — агрегатор, который обновляет информацию о ценах и характеристиках 23 млн товаров от пяти тысяч интернет-магазинов. Чтобы объединить эти товары в карточки моделей при помощи фрилансеров, нам потребовалось бы 700 рабочих дней и большие денежные вложения. Поэтому мы автоматизировали ручной труд и создали два кластеризатора, которые автоматически объединяют товарные предложения по изображениям и по текстам.
Кластеризатор по картинкам — это предобученная нейросеть. Система делит картинки на похожие и непохожие, обрабатывает не менее двух миллионов изображений и позволяет автоматически объединять товарные предложения в страницы моделей на половине неразмеченных категорий.
Текстовый кластеризатор — набор эвристических методов, которые обрабатывают миллион текстов за один раз. Они используются для тех категорий, где картинки похожи друг на друга, но названия и описания содержат информацию, которая позволяет выделить конкретную модель, серию товара и важные характеристики.
Кластеризатор размечает оставшуюся половину категорий. Он определяет, какие товары стоит объединить в определенной карточке модели, какие – не стоит.
Оценить точность кластеризации по всему корпусу предложений невозможно. Для этого нужен размеченный образцовый корпус, а мы использовали эти алгоритмы, чтобы получить его хотя бы в минимальном приближении.
У каждого из алгоритмов разные проблемы. Кластеризатор по изображениям может по ошибке внести в кластеризованную модель предложение от другой модели, потому что фотографии были очень похожи. Текстовый кластеризатор может изредка расщеплять одну модель на две потому, что у него нет информации о семантической близости названий товаров.
Использование доступных текстовых наборов не дает нам этой информации в полной мере и значительно усложняет модель и время её работы. Поэтому мы оцениваем качество вручную и выборочно просматриваем несколько десятков моделей. Если качество удовлетворяет нашим требованиям, то оставляем модель. Если нет — меняем кластеризатор или снимаем категорию с обработки.
Алгоритмы работают отдельно по каждой категории, поэтому качество кластеризации для категорий различается. Позже мы оцениваем успешность кластеризации по показателям отказов и конверсии с разделенных на группы карточек моделей.
Если же оценивать среднюю точность алгоритмов по всем категориям, то у кластеризатора по изображениям она достигает 75-85%, а для текстового — выше 90%, а расщепление моделей наблюдается в одном из 30-50 кластеров.
Мы внедрили проект и создали 400 тысяч моделей. Это около 70% всех модельных карточек сайта. За несколько недель после реализации мы фиксируем в них 30% модельного органического трафика.
Расширение региональности
Мы создали 70 региональных поддоменов на Price.ru. Это улучшило региональную видимость сайта, а также позволило магазинам-партнерам предлагать товары местным потребителям. Пользователям из других городов теперь удобнее пользоваться сайтом и подбирать товары от местных филиалов. Результаты трафика в зависимости от размера города видны на графике (данные «Яндекс.Метрики»).
Техническое улучшение сайта
Мы следим за состоянием сайта Price.ru и регулярно проверяем его при помощи сервисов вроде Webpagetest.org. Он позволяет вовремя обнаружить проблемы со скоростью загрузки страниц и устранить причины снижения показателей.
Любой SEO-команде важно быть в курсе других проектов компании. Нужно использовать свои возможности в областях, которые могут не влиять на текущий трафик, но могут положительно сказаться на поведенческих факторах в дальнейшем.
Мы помогаем в развитии внутреннего поиска, при использовании методов машинного обучения, чтобы прогнозировать клики в товарных предложениях на сайте, выявляем тренды с помощью временных рядов. Также участвуем в создании рекомендательных систем для товарных предложений их дополнений, развиваем внутреннюю систему аналитики и отслеживаем технические проблемы в работе сайта.
Планы на будущее
Мы собираемся переработать страницы моделей, поменять их внутреннюю структуру трафика, расширить и улучшить кластеризаторы. Будем пробовать другие модели, чтобы повысить точность распределения. Нужно также увеличить присутствие в небольших городах, улучшить технологию создания пресетов и увеличить их количество на сезонных категориях. Мы планируем ускорить сайт и обновлять его технологии с учетом последних требований Google (HTTPS, AMP, PWA и так далее).