فهرست موضوعات در این آموزش
الگوریتم SMITH
الگوریتم SMITH نسخه پیشرفته الگوریتم BERT است که می توان به جرات گفت مدل قدرتمندتر برای درک معنا و مفهوم کوئری ها و پارگراف ها است. گوگل اخیراً مقاله ای منتشر کرده و یک الگوریتم جدید به نام اسمیت را معرفی کرد. به نظر میرسد که الگوریتم SMITH نوعی هوش مصنوعی است که با استفاده از آن، گوگل می تواند معانی تمام محتوای موجود در اینترنت را درک کند.
الگوریتم SMITH بسیارمهم است چون به راحتی Bert را برکنار میکند و معادلات جدیدی را در دنیای سئو سایت ایجاد می کند.
آیا گوگل در حال حاضر از الگوریتم SMITH استفاده می کند؟
گوگل به طور دقیق نمی گوید که از کدام الگوریتم استفاده می کند. چون این اطلاعات، راه متخصصین سئو را برای تقلب و مهندسی معکوس باز می گذارد. از طرفی جایگزینی الگوریتم ها هم کار زمان بری است. حتی گوگل برخی مواقع این الگوریتم ها را ابتدا روی درصد خاصی از وب سایت ها و یا کوئری ها پیاده سازی می کند و بعد به کل سیستم تعمیم می دهد.
پس نمی توان گفت که آیا گوگل در حال حاضر از این الگوریتم استفاده می کند یا خیر. اما با قدرتی که این الگوریتم دارد ممکن است گوگل کمکم آن را پیاده سازی کند و ما کمکم نتایج آن را در سایت های خودمان ببینیم.
الگوریتم Bert چیست و چگونه کار میکند؟
الگوریتم برت یکی از بزرگترین آپدیت های گوگل در سال ۲۰۱۹ بود. آپدیتی که برای بهبود تفکیک کلمات کلیدی ایجاد شد.
در حقیقت گوگل با این آپدیت می خواهد کوئرهای سرچ شده توسط کاربران را بهتر درک کند و جواب بهتری برای آن پیدا کند. در این الگوریتم، اهمیت تولید محتوا برای مخاطبین بسیار بیشتر شده است. یعنی عملاً ارزش کلید واژه ها کمتر شده و گوگل دوست دارد شما به جای این که برای موتورهای جستجو محتوا تولید کنید، برای کاربران محتوا تولید کنید.
نکته ی دیگری که آپدیت به ما نشان داد این است که طول محتوا عملاً اهمیتی ندارد. تا قبل از این محتوای طولانی ۳۰۰۰ کلمه همیشه رتبه خوبی کسب میکرد. ولی حالا گوگل دوست دارد شما مستقیم به سوالات کاربران جواب داده و زیاد وقت کاربران را نگیرید. اگر بخواهید الکی محتوا را کش دهید و وقت کاربر را بگیرید، گوگل این موضوع را درک می کند و رتبه شما را پایین تر می آورد.
یک مثال جالب برای درک بهتر الگوریتم SMITH
فرض کنید این عبارت «plant a Cow Parsnip» را در گوگل سرچ می کنیم. ترجمه این عبارت یعنی “کاشت گلپر” نکته اینجاست که بدانید “Cow” در زبان انگلیسی به معنای گاو است. اما “Cow Parsnip” به معنی “گلپر” می باشد.
قبل از این آپدیت، اگر این عبارت را سرچ می کردیم، معنی اول یعنی گاو را می آورد. حتما به این مورد توجه کردید که ما در کوئری بالا از کلمه Cow Parsnip استفاده کردیم ولی در ترجمه گوگل گاو را به ما نشان می دهد.
بعد از آپدیت برت و آمدن آپدیت اسمیت، با جستجو این عبارت نتایج درست گلپر را نمایش می دهد. یعنی با اینکه مترجم گوگل قادر به ترجمه نیست اما الگوریتم SMITH گوگل به درستی معانی را درک می کند.
تفاوت الگوریتم SMITH با الگوریتم Bert چیست؟
الگوریتم SMITH یک مدل تازه برای درک کامل یک محتوا است. این محتوا می تواند یک کتاب و یا یک صفحه از دنیای وب باشد. مدل Bert براین پایه طراحی شده بود که کلمات داخل جملات را درک کند و معنای هر کدام در کل جمله را تشخیص دهد.
این الگوریتم برای کوئری هایی استفاده می شود که توسط کاربران در گوگل جستجو می شدند. اما الگوریتم SMITH برای درک جملات داخل پاراگراف و کل محتوا استفاده می شود.
تفاوت بین دو الگوریتم:
- الگوریتم Bert با توجه به طول متن ورودی، محدود به متن کوتاه مانند چند جمله و یا یک پاراگراف هست.
- الگوریتم SMITH قادر به انجام کاری است که Bert قادر به انجام آن نیست.
- در الگوریتم برت حداکثر طول متن ورودی ۵۱۲ می باشد.
- در الگوریتم اسمیت حد اکثر طول متن ورودی به ۲۰۴۸ رسیده.
- الگوریتم Bert محدود به درک اسناد کوتاه است و برای درک اسناد بلند مناسب نیست.
- در حالی که SMITH هرچقدر محتوا بیشتر باشد عملکرد بهتری دارد.
محدودیت های الگوریتم Bert
Bert یک الگوریتم تبدیل کننده است. کوئری ها را به وکتور و یا المان هایی تبدیل میکند که برای هوش مصنوعی قابل فهم باشد. می تواند کلمات را در بستر بزرگتری آنالیز کند. این الگوریتم برای متن های کوتاه در حقیقت مناسب هستند. چون حجم آنالیزی که نیاز دارد بسیار زیاد است و ممکن است سرعت جستجوی گوگل کمتر شود.
گوگل با هر بار جستجو باید در مدت زمان خیلی خیلی کمی تعداد زیادی محتوا را آنالیز کند. از طرفی روزانه ۱۶ درصد از کوئری هایی که در گوگل سرچ می شوند کاملا جدید هستند. یعنی برای اولین بار در گوگل جستجو می شود که گوگل برای درک این کوئری ها باید محاسبات خود را بیشتر کند.
محتوای متنی طولانی خوراک اسمیت است. الگوریتم اسمیت برای درک محتوای طولانی به میدان آمده است.
دلیل پیچیده بودن متن طولانی برای الگوریتم ها
مطابقت معنایی بین متن های طولانی به چند دلیل کار چالش برانگیزی است:
- هردو متن طولانی هستند، تطبیق آنها مستلزم درک دقیق تر از روابط معنایی از جمله الگوی تطبیق بین قطعات متن با فاصله طولانی است.
- اسناد طولانی شامل ساختار داخلی مانند بخش ها، متن ها و جملات هستند. برای خوانندگان، ساختار اسناد معمولا نقش اساسی در درک مطلب دارد. به همین ترتیب، یک مدل برای عملکرد بهتر تطبیق اسناد نیز باید ساختار سند را در نظر بگیرد.
- پردازش متون طولانی احتمالا باعث ایجاد خطاهای بیشتری در مدلی که طراحی چندان دقیقی نداشته، می شود.
عملکرد الگوریتم های گوگل
اما اگر بخواهیم دقیق تر وارد این جزئیات شویم باید ابتدا روی قابلیت های اولیه آن تمرکز کنیم.
آموزش اولیه الگوریتم
به طور کلی، الگوریتم های هوش مصنوعی مبتنی بر یادگیری، ابتدا باید مقادیر اولیه و دیتایی برای آنالیز داشته باشند. بدون این دیتا عملا هوش مصنوعی کار نمی کند. به همین دلیل ابتدا روی یک زبان خاص (معمولا زبان انگلیسی) پیاده سازی می شود و حجم زیادی از دیتا به این الگوریتم داده می شود. مثلا استعاره ها، بازی های زبانی، تغییرات کلمات در یک بازه ی زمانی و … برای این الگوریتم تعریف می شوند.
به نظر می رسد الگوریتم SMITH به طور کامل آموزش داده شده و کامل به پارادایم های زبانی مسلط است. بلوک های زبانی و حتی مدل های تغییر یافته آن را تشخیص می دهد و می تواند متناسب با آن حتی در متن های طولانی و یا پاراگراف ها کلماتی که احتمالا حذف شده اند را تشخیص دهد.
حذف بلوک های جمله در آموزش اولیه
نکته جالب در مورد این الگوریتم تشخیص بلوک های جمله است. در الگوریتم BERT فقط می توانستیم جای خالی جملات را پر کنیم. اما حالا با این الگوریتم شما می توانید یک پاراگراف به آن بدهید تا جمله حذف شده را برای شما تولید کند. با این مضمون می توان SMITH را معجزه ی NLP گوگل دانست.
نتایج تست روی الگوریتم SMITH
تست هایی که محققین حوزه ی NLP روی این الگوریتم انجام داده اند، میزان نقص و پراکندگی بسیار کمی را حتی در سخت ترین شرایط نشان داده اند. حتی می توان گفت همبستگی این الگوریتم از BERT هم بالاتر است و برای محتوای طولانی و درک معنای کلی آن به خوبی عمل می کند.
جمع بندی
الگوریتم اسمیت قادر به پردازش متن ها و پارگراف های طولانی می باشد. این الگوریتم از الگوریتم برت پیشی گرفته و به زودی ممکن است گوگل کلا به جای برت از این الگوریتم استفاده کند و ما کم کم نتیجه آن را در سایت های خودمان ببینیم.