Все, що потрібно знати про алгоритм BERT в пошуку Google
У жовтні Google запустив найбільше оновлення пошукових алгоритмів за останні п’ять років – BERT Update. Впровадження цього алгоритму було покликане поліпшити розуміння запитів на природній мові і що стоїть за ними наміри. Як результат, Google тепер зможе надавати більш релевантні результати пошуку.
BERT охоплює 10% пошукових запитів, а це значить, що він може в деякій мірі впливати на видимість і трафік в органічному пошуку.
Нижче – огляд частих запитань на тему BERT, підготовлений Search Engine Land.
Коли був BERT запущений в пошуку Google?
Запуск BERT в пошуковій системі Google для запитів англійською мовою було розпочато 21 жовтня 2019 року.
В майбутньому Google планує розширити цей алгоритм на всі мови, які підтримуються пошуковою системою, але точного графіка у компанії поки немає. Модель BERT також використовується для поліпшення блоків з відповідями (featured snippets) у більш ніж 20 країнах.
Що таке BERT?
BERT (Bidirectional Encoder Representations from Transformers) – це метод обробки природної мови, що базується на використання нейромереж нової архітектури для роботи з послідовностями, відомих як «трансформери». Ця технологія допомагає Google краще визначати контекст слів в пошукових запитах.
Наприклад, у фразах «nine to five» (від дев’яти до п’яти) і «a quarter to five» (без чверті п’ять) прийменник «to» має два різних значення, що очевидно для людей, але менш зрозуміло для пошукових систем. BERT призначений для розмежування таких
нюансів, щоб полегшити Google формування більш релевантних результатів.
У листопаді 2018 року Google відкрив вихідний код BERT, і тепер будь-хто може використовувати цю технологію для навчання своєї власної системи обробки природної мови — для відповідей на запитання чи інших завдань.
Що таке нейронна мережа?
Говорячи простою мовою, нейронні мережі – це алгоритми, призначені для виявлення патернів. Розподіл зображень за категоріями, розпізнавання рукописного тексту і навіть прогнозування тенденцій на фінансових ринках — це звичайні області застосування нейромереж. Їх також використовують в роботі пошукових систем.
Щоб розпізнавати патерни, нейромережі навчаються на наборах даних. Попереднє навчання BERT відбувалося на корпусі простих текстів з Wikipedia, про що Google розповів, коли відкрив вихідний код технології.
Що таке обробка природної мови?
Обробка природної мови (Natural language processing, NLP) відноситься до області штучного інтелекту, яка займається лінгвістикою, щоб дати комп’ютерам можливість зрозуміти, як люди спілкуються.
До прикладів досягнень в області NLP можна віднести інструменти моніторингу соціальних мереж, чат-боти і т. п.
В цілому NLP – це не нова функція для пошукових систем. При цьому BERT являє собою прогрес у NLP, досягнутий за допомогою двонаправленого навчання (докладніше про це нижче).
Як працює BERT?
Проривний в роботі BERT є його здатність навчати мовні моделі на основі всього набору слів у додатку або запиті (двостороннє навчання), тоді як у традиційному навчанні аналізується упорядкована послідовність слів (зліва направо або справа наліво). BERT дозволяє мовної моделі розуміти контекст слова на основі оточуючих його слів, а не тільки того слова, яке йому передує або слідує відразу за ним.
Google називає BERT «глибоко двонаправленим», оскільки контекстні подання слів починаються «з самого низу глибокої нейронної мережі».
“Наприклад, слово “bank” буде мати однакову вільний від контексту подання в “bank account” (банківський рахунок) і “bank of river” (берег річки). Контекстні моделі замість цього генерують подання кожного слова, засновані на інших слів у реченні. Наприклад, у реченні “I accessed the bank account” (я отримав доступ до банківського рахунку однонаправлена контекстна модель буде представляти “bank” на основі “I accessed the”, але не “account”. При цьому BERT представляє “bank”, використовуючи та попередній і наступний контекст: “I accessed the… account””.
Google показав кілька прикладів того, як застосування BERT в пошуку може впливати на результати. Так, за запитом [math practice books for adults] (підручники з математики для дорослих) в топі пошукової видачі раніше виводився підручник для 6-8 класів. Після запуску BERT в топі ВИДАЧІ знаходиться книга під назвою «Math for Grownups» («Математика для дорослих»).
Підручник для 6-8 класів все ще виводиться на першій сторінці по цьому запиту, але у видачі також є дві книги, орієнтовані саме на
дорослих, які ранжуються вище, включаючи блок з відповіддю.
Зміна результатів пошуку, подібне до наведеного вище, відображає нове розуміння запиту з використанням BERT.
Використовується BERT для розуміння всіх запитів?
Ні. BERT допомагає Google розуміти 1 з 10 запитів англійською мовою в США.
«Зокрема, у випадку більш довгих, більш розмовних запитів, де прийменники, такі як “for” та “to” мають велике значення, пошукова система [тепер] зможе зрозуміти контекст слів у вашому запиті», — йдеться у блозі Google.
При цьому не всі запити є розмовними або включають прийменники. Брендові запити і більш короткі фрази – це лише два приклади тих запитів, які не вимагають застосування BERT.
Як BERT вплине на мої обрані фрагменти?
Як ми бачили на прикладі вище, BERT також може впливати на ті результати, які з’являються в блоках з відповідями (featured snippets або «вибрані фрагменти»).
На прикладі нижче Google порівнює вибрані фрагменти за запитом [parking on a hill with no curb] (парковка на височині без бордюру), пояснюючи:
“У минулому такий запит наводив наші системи в замішання – ми приділяли занадто багато уваги слова “curb” і ігнорували слово “no”, не розуміючи, кілька критичним воно було для належної відповіді на цей запит. Тому ми повертали результати для паркування на височини з бордюром».
У чому різниця між BERT і RankBrain?
Деякі з можливостей BERT нагадують перший вбудований Google метод для розуміння запитів на базі ІІ – RankBrain. Але це два окремих алгоритми, які можуть використовуватися для покращення результатів пошуку.
«Перше, що треба зрозуміти про RankBrain, — це те, що він працює паралельно із звичайними алгоритмами ранжирування в органічному пошуку і використовується для коригування результатів, розрахованих цими алгоритмами», — зазначає Ерік Энж (Eric Enge), головний менеджер Perficient Digital.
RankBrain коригує результати, переглядаючи поточний запит та знаходячи схожі минулі запити. Потім він перевіряє ефективність
результатів пошуку цих історичних запитів. «На підставі того, що він бачить, RankBrain може регулювати висновок результатів звичайних алгоритмів ранжирування», — додав Энж.
RankBrain також допомагає Google інтерпретувати пошукові запити, щоб він міг відображати результати, які не містять тих слів, що є в запиті. У наведеному нижче прикладі Google вдалося встановити, що користувач шукає інформацію про Ейфелевої вежі, незважаючи на те, що назва вежі не фігурує у запиті [висота символу Парижа].
«BERT працює зовсім по-іншому», — продовжує Энж. «Традиційні алгоритми намагаються аналізувати контент на сторінці, щоб зрозуміти, про що він і до чого він може ставитися. При цьому традиційні алгоритми NLP, як правило, здатні тільки переглядати контент перед словом АБО після слова для кращого розуміння значення та релевантності цього слова. Двонаправлений компонент BERT — це те, що його відрізняє».
Як згадувалося вище, BERT переглядає вміст до і після слова, щоб прояснити своє розуміння значення та релевантності цього слова. «Це критичний поліпшення в обробці природної мови, оскільки людське спілкування за своєю природою багаторівневе і складне», — зазначив Энж.
І BERT, і RankBrain використовуються Google для обробки запитів та вмісту веб-сторінок, щоб краще зрозуміти, що означають використовувані в них слова.
BERT – це не заміна RankBrain. Google може використовувати кілька методів для розуміння запиту, а це значить, що BERT може застосовуватися самостійно, разом з іншими алгоритмами Google, у тандемі з RankBrain, в будь-якій комбінації або не використовуватися взагалі – в залежно від пошукового запиту.
На які інші продукти Google може впливати BERT?
Заява про запуск Google BERT відноситься тільки до пошуку, проте це оновлення також буде в якійсь мірі впливати і на Assistant. Коли за запитами, виконуваних Assistant, повертаються готові відповіді або результати з основного пошуку, то ці результати можуть піддаватися впливу BERT.
У коментарі Search Engine Land представник Google заявив, що в даний час BERT не використовується для реклами, але якщо він буде інтегрований у цю вертикаль в майбутньому, то це може допомогти поліпшити деякі з невдалих близьких варіантів, які заважають рекламодавцям.
Можна оптимізувати сайт для BERT?
За словами євангеліста пошуку Денні Саллівана (Danny Sullivan): «Немає нічого, що можна було оптимізувати для BERT, і що слід було б переосмислити. Наше фундаментальне прагнення винагороджувати відмінний контент залишається незмінним».
Для хорошого ранжирування Google стабільно радить фокусуватися на користувачів та створювати контент, який задовольняє їх пошуковий интент. Оскільки BERT призначений для інтерпретації цього наміру, то стає зрозумілим, чому надання користувачеві того, що він хоче, як і раніше є рекомендацією Google.
«Оптимізація» тепер означає, що ви можете більше зосередитися на якісному і чітко написаному контенту замість того, щоб
шукати компроміс між створенням контенту для своєї аудиторії та побудовою лінійних фраз для машин.
Де можна дізнатися більше про BERT?
Нижче – невеличка добірка посилань на ті матеріали, які можна вивчити для кращого розуміння BERT. Всі вони на англійській мові.
- Understanding searches better than ever before — Google Keyword Blog
- Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing — Google AI Blog
- BERT for question answering starting with HotpotQA — Github
- The research paper introducing BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding — Cornell University