TW-Bert: новый алгоритм ранжирования Google – чем важен?

Богдан Казаков Продвижение сайтов 15.09.2023 | 0

Google сообщил о замечательной системе ранжирования под названием Term Weighting BERT (TW-BERT), которая улучшает результаты поиска и легко внедряется в существующие системы ранжирования.

Хотя Google не подтвердил использование TW-BERT, этот новый фреймворк стал настоящим прорывом, улучшая процессы ранжирования в целом, включая расширение запросов. Кроме того, его легкость внедрения, по моему мнению, делает вероятным его использование.

Среди многочисленных соавторов TW-BERT находится Марк Наджорк, выдающийся исследователь-ученый в Google DeepMind и бывший старший директор по исследованиям в Google Research.

Он также является соавтором множества исследовательских статей по темам, связанным с процессами ранжирования и многими другими областями.

Среди статей, в которых Марк Наджорк указан в качестве соавтора, можно выделить следующие ключевые моменты:

Фреймворк TW-BERT: Google представил инновационную систему ранжирования под названием Term Weighting BERT (TW-BERT), которая значительно улучшает результаты поиска.
Повышение процессов ранжирования: TW-BERT существенно улучшает процессы ранжирования в различных аспектах, включая расширение запросов.
Легкость внедрения: Одним из значимых преимуществ TW-BERT является его легкость внедрения, что делает его более вероятным кандидатом для использования.
Марк Наджорк: Среди соавторов этой системы находится Марк Наджорк, который является ученым в Google DeepMind и имеет обширный опыт в области исследований по процессам ранжирования.
Важность исследований Марка Наджорка: Марк Наджорк участвовал в создании множества исследовательских статей, охватывающих широкий спектр тем, связанных с ранжированием и другими областями.

Эти ключевые моменты подчеркивают важность и значимость фреймворка TW-BERT и его потенциальное влияние на процессы ранжирования в поисковой системе Google.

Оглавление

Что такое TW BERT?

TW-BERT — это фреймворк ранжирования, который назначает баллы (называемые весами) словам в поисковом запросе, чтобы более точно определить, какие документы являются релевантными для этого поискового запроса.

TW-BERT полезен для расширения запроса.

Расширение запроса — это процесс переформулирования поискового запроса или добавления к нему дополнительных слов (например, добавление слова «рецепт» к запросу «куриный суп»), чтобы лучше соответствовать запросу документов.

Добавление баллов к запросу помогает ему лучше определить, о чем именно идет речь в запросе.

TW-BERT (Term Weighting BERT) представляет собой инновационный фреймворк, который объединяет два разных подхода к информационному поиску: статистический и основанный на глубоком обучении. Этот фреймворк решает ряд проблем, связанных с обоими методами.

Статистический метод обеспечивает эффективный поиск, масштабируется с увеличением размера корпуса данных и обобщается на новые области. Однако он взвешивает термины независимо друг от друга и не учитывает контекст всего запроса.

С другой стороны, модели глубокого обучения способны анализировать контекст поисковых запросов и предоставлять более точные представления для отдельных терминов.

TW-BERT призван совмещать эти два подхода. Он преодолевает недостатки обоих методов и определяет наиболее релевантные и нерелевантные термины в запросе, учитывая их контекст.

Что это значит для результатов поиска?

Релевантные термины могут быть усилены, чтобы повысить релевантность результатов поиска.
Нерелевантные термины могут быть уменьшены в весе, чтобы исключить их из результатов поиска.
Таким образом, TW-BERT создает мост между статистическим и глубоким обучением, обеспечивая более точный и контекстно-ориентированный поиск, который учитывает как эффективность, так и контекст запросов. Этот метод обещает улучшить результаты поиска и сделать их более релевантными для пользователей.

Пример определения весов терминов в поисковом запросе с использованием TW-BERT:

Допустим, у нас есть поисковый запрос: «Nike беговые кроссовки».

Этот запрос состоит из трех слов, и алгоритм ранжирования должен понимать их так, как это задумал пользователь.

Проблема заключается в том, что подчеркивая часть «беговые» в запросе, можно получить нерелевантные результаты поиска, содержащие другие бренды, кроме Nike.

В этом примере бренд Nike имеет важное значение, и в процессе ранжирования требуется учитывать наличие слова Nike на веб-страницах-кандидатах, которые рассматриваются для включения в результаты поиска.

Что делает TW-BERT, это присваивает оценку (вес) каждой части поискового запроса, чтобы он имел смысл так же, как его понимает пользователь.

В данном случае слово Nike считается важным, поэтому оно должно получить более высокую оценку (вес).

Исследователи о TW Bert

«Следовательно, вызов состоит в том, чтобы обеспечить, чтобы ‘Nike’ имел достаточно высокий вес, при этом всё равно обеспечивая наличие в результатах поиска беговых кроссовок.»

Другая задача заключается в понимании контекста слов «беговые» и «кроссовки», что означает, что весование должно быть направлено на объединение этих слов в фразу «беговые кроссовки», а не на взвешивание этих двух слов независимо друг от друга.

Эта проблема и решение объясняются следующим образом:

«Второй аспект — как использовать более значимые n-граммные термины при оценке.

В нашем запросе термины «беговые» и «кроссовки» обрабатываются независимо, что может привести к равноценному сопоставлению, например, с «беговыми носками» или «скейтовыми кроссовками».

В этом случае мы хотим, чтобы наш поиск работал на уровне n-грамм, чтобы указать, что «беговые кроссовки» следует учитывать при оценке.»

Чем полезен и что представляет из себя TW-Bert?

TW-BERT представляет собой ответ на ограничения, присутствующие в текущих методах ранжирования и расширения терминов в поисковых системах. В исследовательской статье подчеркиваются эти ограничения и объясняется, как TW-BERT позволяет их преодолеть.

Ограничения статистического взвешивания: Традиционные методы взвешивания слов ограничены в разнообразии обрабатываемых запросов, и они менее успешно справляются с нулевыми сценариями (zero-shot scenarios), то есть ситуациями, в которых модель должна решить проблему, для которой она не была заранее обучена.
Ограничения в расширении терминов: Существующие методы расширения терминов не всегда учитывают дополнительные этапы взвешивания, выполняемые функциями оценки, используемыми в существующих системах ранжирования, такими как статистика запросов, статистика документов и значения гиперпараметров. Это может изменить исходное распределение весов терминов при окончательном ранжировании и поиске.
Ограничения глубокого обучения: Глубокие модели обладают сложностью в развертывании и могут вести себя непредсказуемо при столкновении с новыми областями, для которых они не были предварительно обучены.

TW-BERT приходит на помощь в решении этих ограничений. Он объединяет лучшие аспекты статистического взвешивания и глубокого обучения, позволяя справляться с разнообразием запросов, учитывая контекст и обрабатывая нулевые сценарии. Этот метод также обеспечивает более точное расширение терминов и учитывает дополнительные этапы взвешивания, что способствует более качественному ранжированию результатов поиска.

TW-BERT представляет собой гибридный подход, который объединяет два различных подхода к информационному поиску: статистический и основанный на глубоком обучении. Вот как он работает:

Использование существующих лексических ретриеверов: Сначала TW-BERT воспользуется сильными сторонами существующих лексических ретриеверов, которые уже обладают способностью назначать веса терминам запроса n-грамм при выполнении поиска. Эти ретриеверы представляют собой статистические методы.
Использование модели глубокого обучения: Далее, на этапе пайплайна поиска, TW-BERT внедряет модель глубокого обучения, которая обеспечивает контекстуальное представление текста. Эта модель присваивает соответствующие веса терминам запроса n-грамм.
Оптимизация TW-BERT: Алгоритм TW-BERT оптимизируется end-to-end с использованием тех же функций оценки, которые используются в пайплайне ретриева. Это обеспечивает согласованность между обучением и реальным поиском.
Улучшение результатов поиска: Это приводит к улучшению результатов поиска при использовании весов терминов, которые были определены TW-BERT, при этом структура системы информационного поиска (IR) остается схожей с ее существующей версией.

Полезный материал: Проблема создания своего сайта

Таким образом, TW-BERT действительно выступает в роли моста между двумя подходами, обеспечивая более точную и контекстно-ориентированную оценку релевантности запросов и обеспечивая более высокое качество результатов поиска.

Преимущества нового алгоритма

TW-BERT обладает важным преимуществом — его легко внедрить в текущий процесс ранжирования системы информационного поиска, подобно компоненту, который можно просто подключить.

Исследователи пишут:

«Это позволяет нам непосредственно внедрять наши веса терминов в систему информационного поиска во время выполнения поисковых запросов.

Это отличается от предыдущих методов взвешивания, которые требуют дополнительной настройки параметров ретриевера для достижения оптимальной производительности поиска, поскольку они оптимизируют веса терминов, полученные с использованием эвристических методов, вместо оптимизации на уровне end-to-end.»

Чрезвычайно важно то, что легкость внедрения TW-BERT не требует специализированного программного обеспечения или обновлений аппаратного обеспечения для добавления его в процесс ранжирования алгоритма. Это позволяет быстро и сравнительно просто улучшить производительность системы информационного поиска, делая его очень привлекательным вариантом для практической реализации.

Google использует ли TW-BERT в своем алгоритме ранжирования?

Как уже было упомянуто ранее, внедрение TW-BERT относительно просто.

По моему мнению, есть все основания предполагать, что легкость внедрения повышает вероятность внесения этой системы в алгоритм Google.

Это означает, что Google может добавить TW-BERT в часть алгоритма ранжирования без необходимости полномасштабного обновления ядра алгоритма.

Кроме легкости внедрения, еще одним важным фактором, который следует учитывать при догадках о том, используется ли алгоритм, — это его успешность в улучшении текущего состояния искусства.

Существует множество исследовательских работ, которые имеют ограниченный успех или не приносят улучшений. Эти алгоритмы интересны, но разумно предполагать, что они не попадут в алгоритм Google.

Те, которые вызывают интерес, — это те, которые демонстрируют выдающуюся успешность, и в случае TW-BERT это именно так.

TW-BERT очень успешен. Они говорят, что его легко внедрить в существующий алгоритм ранжирования и что он производит результаты, сравнимые с «dense neural rankers».

Исследователи объясняют, как TW-BERT улучшает текущие системы ранжирования:

«Используя эти ретриверные фреймворки, мы показываем, что наш метод взвешивания терминов превосходит базовые стратегии взвешивания терминов для задач внутри домена.

В задачах вне домена TW-BERT улучшает базовые стратегии взвешивания, а также «dense neural rankers».

Мы также демонстрируем полезность нашей модели, интегрируя ее с существующими моделями расширения запросов, что улучшает производительность по сравнению с обычным поиском и плотным ретривалом в случаях с нулевыми данными.

Это подтверждает, что наша работа может привести к улучшениям в существующих системах ретрива с минимальной сложностью внедрения.»

Таким образом, есть две веские причины предполагать, что TW-BERT может уже быть частью алгоритма ранжирования Google:

Он улучшает работу текущих систем ранжирования по всему спектру задач.
Его легко внедрить.
Если Google уже внедрила TW-BERT, это может объяснить флуктуации в ранжировании, о которых сообщают инструменты мониторинга SEO и участники поискового маркетинга за последний месяц.

Как правило, Google объявляет о некоторых изменениях в ранжировании, особенно когда они вызывают заметные изменения, как, например, при анонсе алгоритма BERT.

В отсутствие официального подтверждения мы можем только предполагать, вероятно ли наличие TW-BERT в алгоритме ранжирования поиска Google.

Тем не менее, TW-BERT — это замечательный фреймворк, который, по всей видимости, улучшает точность систем информационного поиска