Анализ текстов в Топ 50

Продвинутый анализ конкурентов, поиск зависимостей - получите от seo оптимизации текстов максимум результата

1 - Выгрузка Топ 50 по поисковой фразе

Анализируются только документы в Топ 50 поисковой выдачи, удаляются рекламные блоки и сервисы яндекса (картинки, видео, маркет и т.д).

Например, для запроса "пластиковые окна" в Яндекс (Москва) будут удалены следующие блоки:


2 - Определение словоформ и связанных слов

Выделяются слова, которые "подсвечиваются" (выделяются жирным) в сниппетах документов результатов по запросу.
Например, для запроса "пластиковые окна" в Яндекс:





Слова фильтруются путем посимвольного сравнения слов из запроса с полученными из сниппетов словами.
Алгоритм определяет корень слова из запроса, если есть совпадение - слово считается словоформой. Для случаев, когда корень слова не удается определить, минимальным считается совпадение в 70%.
Если слово не определяется как словоформа, но оно часто употребляется в сниппетах - алгоритм считает его "связанным" с данным запросом.


Например, для запроса "пластиковые окна" словоформы:


Слово Словоформа
пластиковые пластиковым, пластиковыми, пластиковых
окна окнам, окнами, окнах, окно


Связанные слова: москва, москве, москвы, окон, отзывы

3 - Удаление сквозных блоков

Для всех анализируемых страниц (включая вашу страницу для сравнения) скачивается дополнительная страница с сайта.
Каждая страница отчищается от стилей (классы, id), адресов в ссылках (href, src), переносы строк, табуляции и т.д. - это позволяет избежать путаницы с активными элементами (например, в меню они для разных страниц отличаются).


Разметка страницы разбивается на блоки исходя из тегов div и ul, посимвольно сравниваются итоговые элементы на 2х страницах.
При наличии 100% совпадения - блок считает сквозным и удаляется из анализируемо страницы.

Удаляется вся разметка, которая находится внутри тэгов: nav, header, footer.

4 - Вхождение поисковой фразы и слов на странице

Для анализа вхождений на странице текст отчищается от всей разметки и разбивается на последовательность предложений (каждый элемент в списке считается отдельным предложением).
Для каждого предложения система ищет последовательность, соответствующую фразе и каждому анализируемому слову.
Текст из Title и H1-H3 считаются до очистки от разметки, title не участвует в подсчете вхождений фраз и слов в документе.

Из страницы удаляется весь контент внутри noindex в виде тега (<noindex>) и комментария (<!-- noindex -->).



Плотность рассчитывается исходя из кол-ва вхождений слова в документ и общего кол-ва слов в документе (обратите внимание, что речь идет не о кол-ве символов).
Например, если слово встречается 15 раз в документе, состоящем из 2200 слов, то итоговая плотность слова = 15/2200*100 = 0,6818%

5 - Релевантность по формулам TF-IDF и BM25

5.1 - определение IDF слов


IDF слова = логарифм от (кол-во документов в коллекции/кол-во документов, по которым найдено слово)

Кол-во документов в коллекции = общее кол-во проиндексированных страниц в поисковой системе.
Кол-во документов, по которым найдено слово = кол-во страниц, найденных по точному вхождению слова в поиске "!слово"


Например, если слово найдено в 60 000 000 документах, а индекс поисковой системы равен 2 500 000 000, то
IDF слова = log(2 500 000 000/ 60 000 000) = 1.42



5.2 - определение средней длины документа


Средняя длина документа = сумма кол-ва слов всех документов в топ 50 по запросу/кол-во документов
Например, если во всех документах топ 50 найдено 30 000 слов, то средняя длинна = 30000/50 = 600 слов



5.3 - подсчет TF-IDF слова


TF-IDF слова = TF слова в документе * IDF слова
TF в документе (частота употребления слова в документе) = кол-во вхождений слова в документе/общее кол-во слов в документе

Например, для слова "окна":
TF в документе = 15 раз в документе/500 слов в документе = 0,03
IDF слова = log(2 500 000 000/ 60 000 000) = 1,42

TF-IDF слова = 0,03*1,42 = 0,0426

Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).



5.4 - подсчет BM25 слова


BM25 = IDF слова * (TF слова * (k + 1) / (TF слова + k * (1 - b + b * Длину документа/Среднюю длину документа)))
k = 2, b = 0,75 - свободные коэффициенты

Например, если IDF слова = 1,42 , TF слова = 0,03 , длина документа = 500 слов, средняя длина документа = 600 слов
BM25 слова = 1,42 * (0,03 * (2 + 1) / (0,03 + 2 * (1 - 0,75 + 0,75 * 500/600))) = 1,42 * 0,09/1,78 = 0,0717

Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).

6 - Сглаживание данных

Используется алгоритм "двойного экспоненциального сглаживания" для минимизации влияния отклонений при просчете зависимостей.


Особенно это заметно если сравнивать исходные данные из Топ 50 с сглаженными, изменение значений параметра становится более явным - это позволяет лучше оценить картину в общем.

7 - Поиск зависимостей

Для просчета зависимостей используется корреляция Пирсона для исходных данных (значения в топ 50) и сглаженных.
Корреляция позволяет предположить наличие связи между позицией документа в топ и значением параметра.


Чем ближе значение к -1, тем сильнее вероятная связь - чем ближе к Топ 1, тем больше становится значение параметра (например, кол-во вхождений фразы) в документах.
Возможна обратная ситуация и значение корреляции стремится к 1 - это может указывать на то, что по данному поисковому запросу "излишняя оптимизация" параметра может привести к ухудшению позиций (например, за переспам точных вхождений слов).

8 - Рекомендуемые значения

Рекомендуемое значение рассчитывается исходя из:

  1. Среднего значения в Топ 10
  2. Наличия прямой или обратной зависимости

Среднее значение в Топ 10 - рассчитывается как среднеарифметическое значение показателя всех документов в Топ 10. Значение = сумма значений показателя в каждом документе/кол-во документов

Положительная зависимость (корреляция стремится к -1) - корреляция Пирсона меньше -0.2 по исходным данным и -0.4 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к улучшению позиций и предлагает увеличить значение в Топ 10 на 30%.

Отрицательная зависимость (корреляция стремится к 1) - корреляция Пирсона больше 0.3 по исходным данным и 0.6 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к ухудшению позиций и предлагает уменьшить значение в Топ 10 на 20%.

1 - Заполнение формы




1.1 - данные для поиска


А Поисковая фраза - набор слов, по которому будет производиться поиск (от 4 до 100 символов, спец. символы запрещены).

Б Поисковая система - система поиска, в которой будет набираться поисковая фраза.

В Регион - Город/Область/Страна, по которой будет уточняться поиск.



Например, так будут выглядеть настройки поиска для запроса "пластиковые окна" в Яндекс (регион Москва)




1.2 - сравнение с вашей продвигаемой страницей


Г Адрес вашей страницы - урл страницы, для которой будут анализироваться и сравниваться данные (начинается с http или https, поле не обязательное).


Пример правильно заполненного поля:


Примеры неправильно заполненного поля:




1.3 - выделение контентной части страницы


Д Удалять сквозные блоки - на основании анализа 2х страниц сайта выделяет сквозные элементы и удаляет их.


Пример удаления сквозных блоков:




1.4 - оплата анализа


Е Анализировать - кнопка, добавляющая задание на анализ.


За анализ 1 поискового запроса снимается 10 ед. (сумма видна при наведении) с баланса:

2 - Список результатов




2.1 - статус анализа


А Задание ожидает очереди/выполняется - все анализы распределяются в очередь, из которой последовательно отрабатываются на серверах.

Б Задание выполнено - после успешного завершения задания результаты становятся доступными

В Произошла ошибка - появляется в случае, если при выполнении задания произошла непредвиденная ошибка. Списанная на анализ сумма в течении 15 минут компенсируется.




2.2 - фильтрация по запросам


Г Строка для поиска - набор слов, которые нужно найти в поисковых фразах ваших анализов.


Пример правильно заполненного поля:




2.3 - экспорт результата


Д .xls - экспортирует задания (статус "Задание выполнено") в таблицу Excel.


3 - Результат анализа (Общий вывод)


А Среднее в топ 10 - среднеарифметическое значение параметра в Топ 10.

Б Рекомендуемое значение - откорректированное "среднее значение в топ 10", с учетом прямой или обратной зависимости (корреляции Пирсона).

В Доработать страницу - сравнивает текущие значение параметра на странице с рекомендованным (если при анализе был указан урл).

Г Зависимость - при условии наличия корреляции Пирсона меньше -0.2 по исходным и -0.4 по сглаженным, система предполагает зависимость позиции страницы в Топ от значения параметра.



Общий анализ представляет из себя краткий обзор результатов для основных параметров в Топ 50 по поисковой фразе.
В целях упрощения и экономии времени системы выводит Рекомендуемые значения и сравнивает их с текущей страницей для последующей доработки.
Стоит отметить, что данные значения представляют из себя только рекомендацию и не обязательны к выполнению для эффективного продвижения сайта.
Перед внесением изменений в текстах на сайте тщательно взвесьте все за и против, просмотрите значения в Топ 50 для каждого параметра.
Позиция сайта в Топ - это не только текстовые параметры, поэтому все возможные зависимости могут быть случайными!



Подробные значения всех параметров для каждой страницы в Топ 50 вы можете посмотреть на вкладках:


шт.
Для анализа конкурентов необходимо авторизоваться