Како Google BERT Vs. Алгоритмите на Смит работат заедно - Преглед на Семалт




Гугл неодамна објави истражувачки труд за нивниот нов алгоритам за НЛП СМИТ. Овој труд просветли многу професионалци за оптимизација за промените што би гарантирале зголемување или пад на рангирањето на SERP. Како и да е, нашата грижа тука е како овој нов алгоритам СМИТ се споредува со БЕРТ?

Во трудот објавен од Гугл, тие тврдат дека СМИТ го надминува БЕРТ во разбирањето на долгите пребарувања и долгите документи. Она што го прави СМИТ толку интересен е тоа што може да разбере пасуси во документот сличен на она што го прави БЕРТ со зборови и реченици. Оваа подобрена карактеристика на SMITH му овозможува лесно и лесно да разбере подолги документи.

Но, пред да продолжиме понатаму, мора да ве известиме дека од сега, СМИТ не живее во алгоритмите на Google. Но, ако нашите шпекулации се точни, тие ќе бидат лансирани заедно со индексирање на пасуси, или ќе му претходат. Ако навистина сте заинтересирани да научите како да рангирате на СЕП, машинското учење неизбежно ќе оди рамо до рамо до овој интерес.

Па назад на темата, Дали БЕРТ е пред замена? Нема ли повеќето документи на мрежата што се огромни, робустен и затоа подолго работат подобро со SMITH?

Да скокнеме понатаму и да видиме што заклучивме. СМИТ може да ја заврши и работата за читање робусни и тенки документи. Помислете на тоа како Базука. Може да предизвика голема штета, може да ги отвори и вратите.

Да започнеме со, зошто БЕРТ или СМИТ?

Вистинското прашање тука е зошто за пребарувач ќе биде потребна обработка на природно учење за да се обезбедат резултати од пребарувањето. Одговорот е едноставен. Пребарувачите бараат NLP при нивната транзиција од пребарувачот што ги разбира низите или клучните зборови на нештата или веб-страниците.

Каде што Google нема идеја, што друго може да има на страницата освен клучните зборови или дали содржината што се индексира има смисла дури и во однос на прашањето за пребарување. Благодарение на NLP, Google може да го разбере контекстот на знаците внесени во неговото барање за пребарување.
Благодарение на NLP, Google може да ги разликува намерите на корисникот кога ќе каже „брег на реката“ и „банкарска сметка“. Исто така, може да се разберат изјавите како што се „Каролин се состана со нејзините пријатели на пијалок, пијалоци, пивце, пијалак, пијалак“ како неприродна.

Како експерти за оптимизација, мора да кажеме дека разбирањето на барањето за пребарување помина далеку. Најдобрите веруваат дека во минатото било премногу тешко да се најдат вистинските написи на Интернет.

Разбирање на БЕРТ

BERT моментално функционира како најдобар модел на NLP што го имаме за многу, ако не и повеќето апликации, особено кога станува збор за разбирање на сложени јазични структури. Многумина го сметаат првиот карактер на Бидирексијанал како најголем скок напред во овој алгоритам. Наместо да има алгоритам што чита одлево надесно, БЕРТ исто така може да ги разбере зборовите во однос на нивниот контекст. На овој начин, тоа не би давало резултати за одделните зборови ставени во барањето, туку индексира веб-страници засновани врз колективното значење на зборовите во барањето за пребарување.

Еве еден пример за олеснување на вашето разбирање:

КАМИОН ИМА СВЕТЛИНА.

Ако ја толкувате таа изјава од лево надесно, со достигнувањето на зборот „светло“, би го класифицирале камионот како нешто со светлина. Тоа е затоа што камионот се појави пред светлото во изјавата.

Но, ако сакаме да ги класифицираме работите на камиони, може да изоставиме „светло“ затоа што не го среќаваме пред „камион“.

Тешко е да се разгледа изјавата само во една насока.

Покрај тоа, БЕРТ има и друга тајна придобивка што е толку извонреден и овозможува ефективно обработка на јазикот со пониска цена на ресурсите во споредба со претходните модели. Тоа е навистина важен фактор што треба да се земе предвид кога некој сака да го примени на целата мрежа.

Примената на токените е уште една еволуција што го придружува БЕРТ. Постојат 30.000 белези во БЕРТ, и секој од нив претставува заеднички збор со неколку двојки за дополнителни знаци за знаци и фрагменти во случај да постои збор надвор од 30.000.

Преку својата способност за обработка на токени и трансформатори, БЕРТ ја разбра содржината, што исто така му даде можност соодветно да ги разбира речениците.

Значи, ако кажеме, "младата дама отиде на брегот. Таа подоцна седна на брегот на реката и гледаше како тече реката".

БЕРТ ќе им додели различни вредности на тие реченици затоа што тие се однесуваат на две различни работи.

Разбирање на СМИТ

Потоа следува СМИТ, алгоритам со подобри ресурси и броеви за употреба за обработка на поголеми документи. БЕРТ користи околу 256 токени по документ, и кога ќе го надмине овој праг, компјутерската цена станува превисока за оптимална функција. Спротивно на тоа, SMITH може да се справи до 2.248 токени по документ. Тоа е околу 8X бројот на токени што ги користи BERT.

За да разбереме зошто компјутерските трошоци растат во еден единствен модел на НЛП, прво мора да размислиме што е потребно за да се разберат реченица и пасус. Кога се занимавате со реченица, има само еден општ концепт што треба да се разбере. Има помалку зборови што се поврзани едни со други, па помалку се поврзуваат помеѓу зборовите и идеите што ги чуваат во меморијата.

Со правење реченици во пасуси, врската помеѓу овие зборови се множи многу. Процесите 8X на текстот ќе бараат многу повеќе пати во брзина и капацитет за оптимизација на меморијата со користење на истиот модел. Ова е местото каде СМИТ ја прави целата разлика во основа со серија и правење многу офлајн обработка. Интересно СМИТ сè уште зависи од правилното функционирање на БЕРТ.

Еве опис за тоа како СМИТ зема документ во неговото јадро:
  1. Прво го разделува документот во групирање на големини со кои е полесно да се управува.
  2. Потоа го обработува секој блок реченици поединечно.
  3. Потоа, трансформаторот учи контекстуална претстава за секој блок, по што ги претвора во репрезентација на документ.

Како работи СМИТ?

За да го обучиме моделот СМИТ, учиме од БЕРТ на два начина:

За да се обучи БЕРТ, еден збор е изваден од реченицата и ќе бидат доставени алтернативни опции

БЕРТ, кој е подобро обучен, е оној што ќе биде поуспешен во изборот на вистинската опција од предвидените алтернативи. На пример, ако на БЕРТ му е дадена реченицата:

Среќната кафеава боја ------ прескокна преку оградата на пикетот.
  • Опција еден - домати.
  • Опција две - куче.
Колку е подобро обучен БЕРТ, толку поголеми се шансите да ја изберат вистинската опција, што е опција два.

Овој метод на обука се применува и кај SMITH.

СМИТ е обучен за големи документи

Колку е подобро обучен СМИТ, толку се поголеми шансите за препознавање на изоставените реченици. Истата идеја е со БЕРТ, но друга апликација. Овој дел е особено интересен затоа што наслика свет со содржина генерирана од Гугл, споени заедно во заградени страници со резултати од пребарувачот. Се разбира, корисниците можат да заминат, но не и затоа што Google може да состави кратка и долга форма содржина од сите најдобри извори на својата страница со резултати.

Ако се сомневате дека ова се случува, треба да знаете дека тоа веќе започна да се случува, и иако тие сè уште не го совладаа тоа, тоа е почеток.

Дали СМИТ е подобар од БЕРТ?

Со сето она што го прочитавте, сосема е природно да се претпостави дека СМИТ е подобар, и за многу задачи, навистина е подобар. Но, размислете како користите Интернет за момент; кои прашања редовно ги внесувате во пребарувањата?
  • „Која е временската прогноза за денес?
  • "Упатства до ресторан".
Одговорот на ваквите пребарувања обично бара кратка содржина, честопати со ограничени и некомплицирани податоци. СМИТ е повеќе вклучен во разбирање на подолги и посложени документи и долги и сложени пребарувања.

Ова ќе вклучува обединување на неколку документи и теми за да се создадат нивните одговори. Одредува како може да се распадне содржината, овозможувајќи му на Google да ја знае вистинската работа за прикажување. Тоа ќе му помогне на Google да разбере како страниците на содржината се поврзани едни со други и обезбедува скала на која може да се вреднуваат врските меѓу другите придобивки.

Со ова, заклучуваме со тоа што и БЕРТ и СМИТ се важни, и обајцата служат за својата единствена цел.

Заклучок

Додека СМИТ е базука, таа ни треба за да создадеме јасна слика за тоа како се работи колективно. Во ресурсите, чини повеќе затоа што работи поголема работа, но чини далеку помалку од БЕРТ кога ја извршувате истата работа.

БЕРТ му помага на Смит да помогне во разбирањето на кратките прашања и малите парчиња содржина. Ова е, сè додека Google не развие друг алгоритам NLP кој ќе ги замени и едните и другите, а потоа ние ќе се движиме и ќе се израмниме со уште еден напредок во оптимизација.

Заинтересирани сте за оптимизација? Проверете ги нашите други статии на Блог на Семалт.