Анализ текстов в Топ 50

Продвинутый анализ конкурентов, поиск зависимостей - получите от seo оптимизации текстов максимум результата

1 - Выгрузка Топ по поисковой фразе

Анализируется только документы в Топ поисковой выдачи, удаляются рекламные блоки и сервисы яндекса (картинки, видео, маркет и т.д).

Например, для запроса "пластиковые окна" в Яндекс(Москва) будут удалены следующие блоки:

2 - Определение словоформ и связанных слов

Выделяются слова, которые "подсвечиваются" (выделяются жирным) в сниппетах документов результатов по запросу.
Например, для запроса "пластиковые окна" в Яндекс:

Слова фильтруются путем посимвольного сравнения слов из запроса с полученнымы из сниппетов словами.
Алгоритм определяет корень слова из запроса, если есть совпадение - слово считается словоформой. Для случаев, когда корень слова не удается определить, минимальным считается совпадение в 70%.
Если слово не определяется как словоформа, но оно часто употребляется в сниппетах - алгоритм считает его "связанным" с данным запросом.

Например, для запроса "пластиковые окна" словоформы:

Слово	Словоформа
пластиковые	пластиковым, пластиковыми, пластиковых
окна	окнам, окнами, окнах, окно

Связанные слова: москва, москве, москвы, окон, отзывы

3 - Удаление сквозных блоков

Для всех анализируемых страниц (включая вашу страницу для сравнения) скачивается дополнительная страница с сайта.
Каждая страница отчищается от стилей (классы, id), адресов в ссылках (href, src), переносы строк, табуляции и т.д. - это позволяет избежать путаницы с активными элементами (например, в меню они для разных страниц отличаются).

Разметка страницы разбивается на блоки исходя из тегов div и ul, посимвольно сравниваются итоговые элементы на 2х страницах.
При наличии 100%совпадения - блок считает сквозным и удаляется из анализируемо страницы.

Удаляется все разметка, которая находится внутри тэгов: nav, header, footer.

Удаляеются все блоки в id/class которых есть упоминание menu, footer, breadcrumb и т.д

4 - Определение типа страницы - коммерчаская или информационная

По ряду признаков система просчитывает веростность коммерческой (наличие телефона, страницы контактов, цены на товар и т.д) и информационной (наличение слова forum в урл страницы, ссылки на страницу "реклама на сайте", фразы "своими руками", слов "фото" в названии страницы и т.д) составляющих.
* Для выделения нужных факторов было проанализировано около 5000 страниц, полученных из топ 50 коммерческих и информационных запросов.

Исходя из итоговых вероятностей, система решает к какому типу относится страница. Если активирована опция "только коммерческие", то из анализа исключаются все страницы, определенные как информационные. В случае, если тип страницы определить не удалось - она считается информационной.

Пример определения типа страницы:

5 - Вхождение поисковой фразы и слов на странице

Для анализа вхождений на странице текст отчищается от всей разметки и разбивается на последовательность предложений (каждый элемент в списке считается отдельным предложением).
Для каждого предложения система ищет последовательно символов,соответствующих фразе и каждому анализируемому слову.
Текст из Title и H1-H3 считаются до очистки от разметки, title не участвует в подсчете вхождений фраз и слов в документе.

Из страницы удаляются весть контент внутри noindex в виде тега (<noindex>) и комментария ().

Плотность рассчитывается исходя из кол-ва вхождений слова в документ и общего кол-ва слов в документе (обратите внимание, что речь идет не о кол-ве символов).
Например, если слово встречается 15 раз в документе, состоящем из 2200 слов, то итоговая плотность слова = 15/2200*100 = 0,6818%

6 - Релевантность по формулам TF-IDF и BM25

6.1 - определение IDF слов

IDF слова = логарифм от (кол-во документов в коллекции/кол-во документов, по которым найдено слово)

Кол-во документов в коллекции = общее кол-во проиндексированных страниц в поисковой системе.
Кол-во документов, по которым найдено слово = кол-во страниц, найденных по точному вхождению слова в поиске "!слово"

Например, если слово найдено в 60 000 000 документах, а индекс поисковой системы равен 2 500 000 000, то
IDF слова = log(2 500 000 000/ 60 000 000) = 1.42

6.2 - определение средней длины документа

Средняя длинна документа = сумма кол-ва слов всех документов в топ 50 по запросу/кол-во документов
Например, если во всех документах топ 50 найдено 30 000 слов, то средняя длинна = 30000/50 = 600 слов

6.3 - подсчет TF-IDF слова

TF-IDF слова = TF слова в документе * IDF слова
TF в документе (частота употребления слова в документе) = кол-во вхождений слова в документе/общее кол-во слов в документе

Например, для слова "окна":
TF в документе = 15 раз в документе/500 слов в документе = 0,03
IDF слова = log(2 500 000 000/ 60 000 000) = 1,42

TF-IDF слова = 0,03*1,42 = 0,0426

Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).

6.4 - подсчет BM25 слова

BM25 = IDF слова * (TF слова * (k + 1) / (TF слова + k * (1 - b + b * Длину документа/Среднюю длину документа)))
k = 2, b = 0,75 - свободные коэффициенты

Например, если IDF слова = 1,42 , TF слова = 0,03 , длинна документа = 500 слов, средняя длинна документа = 600 слов
BM25 слова = 1,42 * (0,03 * (2 + 1) / (0,03 + 2 * (1 - 0,75 + 0,75 * 500/600))) = 1,42 * 0,09/1,78 = 0,0717

Общая релевантность документа = сумма релевантности каждого слова (в анализе выделяются отдельно по группам слов - точные вхождения, словоформы, связанные).

7 - Сглаживание данных

Используется алгоритм "двойного экспоненциального сглаживания" для минимизации влияния отклонений при просчете зависимостей.

Особенно это заметно если сравнивать исходные данные из Топ с сглаженными, изменение значений параметра становится более явным - это позволяет лучше оценить картину в общем.

8 - Поиск зависимостей

Для просчета зависимостей используется корреляция Пирсона для исходных данных (значения в топ 50) и сглаженных.
Корреляция позволяет предположить наличие связи между позицией документа в топ и значением параметра.

Чем ближе значение к -1, тем сильнее вероятная связь - чем ближе к Топ 1, тем больше становится значение параметра (например, кол-во вхождений фразы) в документах.
Возможна обратная ситуация и значение корреляции стремится к 1 - это может указывать на то, что по данному поисковому запросу "излишняя оптимизация" параметра может привести к ухудшению позиций (например, за переспам точных вхождений слов).

9 - Рекомендуемые значения

Рекомендуемое значение рассчитывается исходя из:

Среднего значения в Топ 10
Наличия прямой или обратной зависимости

Среднее значение в Топ 10 - рассчитывается как среднеарифметическое значение показателя всех документов в Топ 10. Значение = сумма значений показателя в каждом документе/кол-во документов

Положительная зависимость (корреляция стремится к -1) - корреляция Пирсона меньше -0.2 по исходным данным и -0.4 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к улучшению позиций и предлагает увеличить значение в Топ 10 на 30%.

Отрицательная зависимость (корреляция стремится к 1) - корреляция Пирсона больше 0.3 по исходным данным и 0.6 по сглаженным.
Система предполагает, что "оптимизация" показателя может привести к ухудшению позиций и предлагает уменьшить значение в Топ 10 на 20%.

1 - Заполнение формы

1.1 - данные для поиска

А Поисковая фраза - набор слов, по которому будет производиться поиск (от 4 до 100 символов, спец. символы запрещены).

Б Поисковая система - система поиска, в которой будет набираться поисковая фраза.

В Регион - Город/Область/Страна, по которой будет уточняться поиск.

Например, так будут выглядеть настройки поиска для запроса "пластиковые окна" в Яндекс (регион Москва)

1.2 - сравнение с вашей продвигаемой страницей/текстом

Г Адрес вашей страницы - урл страницы, для которой будут анализироваться и сравниваться данные (начинается с http или https, поле не обязательное).

Пример правильно заполненного поля:

Примеры неправильно заполненного поля:

Д Текст для сравнения - текст, который будет сравниваться с результатами ананализа Топ. Возможно использование тегов title, h1, h2 и h3 (но не обязательно).

Пример правильно заполненного поля:

Если поле не пустое, то "Адрес вашей страницы" не учитывается.

1.3 - выделение контентной части страницы

Е Удалять сквозные блоки - на основании анализа 2х страница сайта выделяет сквозные элементы и удаляет их.

Пример удаления сквозных блоков:

1.4 - удаление спектра/витальных и информационных сайтов/досок обьявлений

Ж Удаление примесей - на основании контента и разметки страницы определяет страницы, которые "не вписываются"/отличаются от большинства сайтов в топ.
Если таких сайтов оказывается меньше 20% от всей выборки - система считает их примесями (например, информационная страница "сделать своими руками" по коммерческому запросу) и не учитывает при анализе.

Пример удаления примесей:

1.5 - только коммерческие страницы

З Только коммерческие - исходя из ряда признаков (наличие телефона, цены, страницы контактов и т.д) алгоритм высчитывает вероятность принадлежности каждой страницы к коммерческий или информационной.
В случае, если вы продвигаете коммерческий сайт (что-то продается или покупается - услуга, товар) по коммерческому запросу (например, купить окна), то нет необходимости учитывать информационные страницы при анализе текста. Система выделит информационные страницы и не будет учитывать их при анализе

Пример удаления информационных страниц:

Внимание! При анализе информационных запросов может быть удалена большая часть страниц из Топ (использовать только в коммерческих запросах).

1.6 - оплата анализа

К Анализировать - кнопка, добавляющая задание на анализ.

За анализ 1 поискового запроса снимается 10 ед. (сумма видна при наведении) с баланса:

2 - Список результатов

2.1 - статус анализа

А Задание ожидает очереди/выполняется - все анализы распределяются в очередь, из которой последовательно отрабатываются на серверах.

Б Задание выполнено - после успешного завершения задания результаты становятся доступными

В Произошла ошибка - появляется в случае, если при выполнении задания произошла непредвиденная ошибка. Списанная на анализ сумма в течении 15 минут компенсируется.

2.2 - фильтрация по запросам

Г Строка для поиска - набор слов, которые нужно найти в поисковых фразах ваших анализов.

Пример правильно заполненного поля:

2.3 - экспорт результата

Д .xls - экспортирует задания (статусе "Задание выполнено") в таблицу Excel.

3 - Результат анализа (Общий вывод)

А Среднее в топ 10 - среднеарифметическое значение параметра в Топ 10.

Б Рекомендуемое значение - откорректированное "среднее значение в топ 10", с учетом прямой или обратной зависимости (корреляции Пирсона).

В Доработать страницу - сравнивает текущие значение параметра на странице с рекомендованным (если при анализе был указан урл).

Г Зависимость - при условии наличия корреляции Пирсона меньше -0.2 по исходным и -0.4 по сглаженным, система предполагает зависимость позиции страницы в Топ от значения параметра.

Общий анализ представляет из себя краткий обзор результатов для основных параметров в Топ по поисковой фразе.
В целях упрощения и экономии времени системы выводит Рекомендуемые значения и сравнивает их с текущей страницей для последующей доработки.
Стоит отметить, что данные значения представляют из себя только рекомендацию и не обязательны к выполнению для эффективного продвижения сайта.
Перед внесением изменений в текстах на сайте тщательно взвесьте все за и против, просмотрите значения в Топ для каждого параметра.
Позиция сайта в Топ - это не только текстовые параметры, поэтому все возможные зависимости могут быть случайными!

Подробные значения всех параметров для каждой страницы в Топ вы можете посмотреть на вкладках:

Пакетный режим

Поисковая система

Регион

Пример текста 1
Пример текста 2

* если поле не пустое, то "Адрес вашей страницы" не учитывается

демо данные

Как добавить из Excel

шт.

Расширенные настройки

Группа настроек:

Анализируемые страницы из поиска

не учитываются страницы, которые попали в топ не по "общим правилам"

не учитываются страницы, которые система определила как информационные - использовать только в коммерческих запросах

Выделение текста со страниц

выделяется контентная часть страницы

тексты ссылок на страницах не будут учитываются

комментарии на странице не учитываются

Просчет средних значений

Не учитывать документы, по которым значение параметра равно нулю

Просчет корреляции

Тип корреляции

Не учитывать документы, по которым значение параметра равно нулю

Для анализа конкурентов необходимо авторизоваться

Без авторизации отображаются только демо результаты

Анализ текстов в Топ 50

1 - Выгрузка Топ по поисковой фразе

2 - Определение словоформ и связанных слов

3 - Удаление сквозных блоков

4 - Определение типа страницы - коммерчаская или информационная

5 - Вхождение поисковой фразы и слов на странице

6 - Релевантность по формулам TF-IDF и BM25

6.1 - определение IDF слов

6.2 - определение средней длины документа

6.3 - подсчет TF-IDF слова

6.4 - подсчет BM25 слова

7 - Сглаживание данных

8 - Поиск зависимостей

9 - Рекомендуемые значения

1 - Заполнение формы

1.1 - данные для поиска

1.2 - сравнение с вашей продвигаемой страницей/текстом

1.3 - выделение контентной части страницы

1.4 - удаление спектра/витальных и информационных сайтов/досок обьявлений

1.5 - только коммерческие страницы

1.6 - оплата анализа

2 - Список результатов

2.1 - статус анализа

2.2 - фильтрация по запросам

2.3 - экспорт результата

3 - Результат анализа (Общий вывод)

Расширенные настройки

Анализируемые страницы из поиска

Выделение текста со страниц

Просчет средних значений

Просчет корреляции

Авторизация

Регистрация