Як працює система рекомендацій контенту?

Під час відвідування вебсайтів у Інтернеті користувачі залишають величезну кількість даних про свою поведінку: відвідані сторінки, кліки, і те, чим вони поділилися в соціальних мережах. Провівши дослідження, ми порівняли різні алгоритми та знайшли способи з’ясувати, на які оголошення натискають користувачі найбільше.

Згадайте час, коли друзі рекомендували фільм на вихідні. Чи ґрунтуються їх підказки на тому, що подобається вам та їм. На основі припущення про взаємну схожість або через поточний контекст вашої розмови?

Сьогодні майже у всіх онлайн-напрямках, від магазинів електронної комерції до онлайн-кінотеатрів та соціальних платформ, існують системи рекомендацій, завдання яких полягає в тому, щоб подивитися на поведінку користувачів та запропонувати продукти, якими вони,найімовірніше, зацікавляться.

Всі онлайн-гіганти прагнуть покращити надання найрелевантніших та персоналізованих характеристик своїм користувачам. У цій статті ви ознайомитесь з різними типами систем рекомендацій, алгоритмами фільтрації та принципом роботи механізму рекомендацій контенту MGID.

Що таке механізм рекомендацій контенту?

Системи рекомендацій контенту роблять спостереження за поведінкою користувача та намагаються передбачати, на що звертають увагу. По суті, вони допомагають створювати персоналізовані враження, виступати у ролі такого собі друга, який знає користувача, що йому подобається, а що іншим, розуміє, які варіанти є найцікавішими.

Кліки, покупки, перегляди, поведінка читання чи інші дії можуть бути представлені графічно як зв’язки між користувачами з одного боку та контентом або продуктами з іншого. Кожен рядок означає, що користувач придбав, переглянув або натиснув на певний товар. У деяких системах ці зв'язки можуть відрізнятися за силою впливу; наприклад, вони можуть ідентифікувати кількість разів, коли товар був куплений, або рейтинг фільму за шкалою від 1 до 10. У такий спосіб проблема полягає у тому, щоб визначити, які ще невідомі рядки можна додати до цього графіка, передбачити їх силу впливу.

Існує два різні типи систем рекомендацій, які базуються на фільтрації елемента або користувача. Алгоритми фільтрації користувачів досить прості; вони просто вибирають інших користувачів зі схожими інтересами чи моделями поведінки, а потім аналізують, які елементи відібрали схожі користувачі, і пропонують їх новим.

Натомість алгоритми фільтрації елементів шукають відповідні елементи у всьому каталозі. Тут термін "відповідні" варто визначати для кожного випадку окремо. Часто це означає, що користувачі, які вибрали товар А (купували, натискали, дивилися тощо), також з надзвичайно високою частотою вибирали і товар В (відповідний товар).

Історія механізмів рекомендацій

У 1998 році, коли вони ще були переважно книгарнею, Amazon запустив дуже простий механізм рекомендацій "від товару до товару". Їх перший алгоритм базувався на спільній фільтрації та пропонував нові товари для покупки на основі того, що користувач уже мав у кошику. Ця функція була дуже позитивно сприйнята користувачами, і відтоді системи рекомендацій завоювали популярність у всьому Інтернеті.

До 2003 року Amazon та інші великі оператори електронної комерції вдосконалили цю функцію: тепер вона надає рекомендації на основі минулих покупок користувача та товарів, які він переглядав у магазині. Сторінки результатів пошуку мали інший алгоритм, який містив елементи, більше пов’язані з пошуком. Багато сторінок мали принаймні деякий рекомендований контент, зокрема сторінки перегляду, з детальною інформацією про продукт тощо. Тоді близько 30% всіх переглядів сторінок на Amazon надходило з системи рекомендацій.

Тоді онлайн-гравці в розважальних, туристичних та інших нішах також почали використовувати алгоритми рекомендацій. Netflix використав цю функцію настільки широко, що у 2006 році оголосив конкурс ML на розв'язання проблеми прогнозування рейтингу фільмів, премія Netflix. Вони запропонували 1 мільйон доларів за покращення точності їх системи рекомендацій фільмів. Різні рішення та алгоритми були оцінені на основі того, як вони можуть мінімізувати середньоквадратичну помилку (RMSE) прогнозованого рейтингу, із цільовим зниженням на 10%.

У 2010-х роках цифрові паблішери та вебсайт новин також почали використовувати рекомендації нового контенту, пропонуючи відвідувачам додаткові статті на основі їхньої поведінки чи інтересів. Цей метод може приводити до контенту з того самого сайту чи інших, показувати відеоконтент або інші вебформати.

Рекомендації на сайті можуть збільшити взаємодію користувачів із сайтом паблішера та зменшити показники відмов, тоді як рекомендації поза сайтом використовуються для просування зовнішніх контент-проєктів, реклами продуктів та залучення потенційних клієнтів.

Сьогодні паблішери додають рекомендації щодо відкриття вмісту різними способами, починаючи від простих плагінів і закінчуючи спеціалізованими платформами з різноманітними функціями. Одним із прикладів є платформа MGID, яка першою запропонувала віджети рекомендацій контенту - найпопулярніший формат на сьогодні. Деякі системи рекомендацій (переважно плагіни) базуються на аналізі ключових слів та тегів, що пропонують контент, який подібний до того, що споживає користувач. Інші досліджують поведінку і те, як вони взаємодіють з різним контентом, їх інтереси та соціальну демографію, щоб дати рекомендації.

Спільна фільтрація vs фільтрація на основі контенту

Існує два загальних підходи до побудови алгоритмів рекомендацій, контентна та спільна фільтрація.

Фільтрація на основі вмісту позначає кожен елемент або користувача певними характеристиками, а потім вивчає ці функції, роблячи припущення про їх схожість. Щоб робити такі висновки, потрібно добре знати продукти і аудиторію. Наприклад, система рекомендацій повинна знати конкретний жанр фільму, країну походження, режисера, дату виходу тощо, щоб підсумувати, що вони схожі, і рекомендувати один, коли користувач виявив інтерес до іншого.

На відміну від фільтрації вмісту, спільна фільтрація не вимагає глибокої експертизи продукту або широкої категоризації, оскільки вона аналізує фактичну поведінку користувачів. Особливості або характеристики беруться безпосередньо з історичних даних про минулі взаємодії між користувачами та елементами. Двигун розробляє гігантську матрицю з користувачами та елементами, визначає загальні кластери для внесення пропозицій. Крім того, відповідні показники відстані можна використовувати для факторизації матриць.

У такий спосіб системи спільних рекомендацій можна розділити на два різні типи:

фільтрація на основі пам'яті

Ці системи шукають схожість між елементами або користувачами. Вони дають рекомендації на основі того, хто купив (переглянув, натиснув тощо) продукт А, а також придбав продукт В. Системи на основі пам’яті можуть бути дуже точними, але вони вимагають багатовимірної кластеризації та їх важко масштабувати.

фільтрація на основі моделі

Тут алгоритм базується на факторизації матриць: вам потрібно призначити певну кількість ознак (параметрів) та вагу для них. Побудувати математичну модель для прогнозування подібності елементів. Ви також повинні вибрати цільову функцію для моделі, наприклад, ймовірність покупки.

Підбивши підсумок, моделі на основі контенту можна використовувати, коли відомі всі функції, пов’язані з предметами та користувачами. Спільна фільтрація, з іншого боку, поширює рекомендації без глибокої експертизи продукту або коли є велика ймовірність упереджених висновків. Щоб скористатися наявними експертними знаннями щодо продукту та уникнути можливих упереджень, можна використовувати гібридну фільтрацію.

Механізм рекомендацій щодо вмісту MGID

Алгоритм MGID вибирає нативну рекламу, яка зацікавить користувача, виходячи з їхньої минулої поведінки та поточного контексту сторінки. Цільова функція, яку має покращити механізм — CTR користувача (коефіцієнт кліку). Система передбачає ймовірність того, що користувач натисне на різну рекламу і показує оголошення з найбільшою схожістю.

Алгоритм заснований на гібридній фільтрації на основі елементів, тобто система рекомендацій поєднує дані з алгоритмів на основі контенту (з використанням категорій контексту вебсторінки та реклами, соціальної демографії, інтересів аудиторії тощо) з поведінкою — на основі алгоритмів (з використанням минулих переглядів сторінок, кліків та показів користувача).

Важливість короткострокових інтересів користувачів

Створюючи систему рекомендацій, ми прагнули виділити функції чи параметри, які можуть допомогти нам показувати найрелевантніші оголошення на які варто натискати. На основі серії експериментів і тестів ми визначили, що короткочасний інтерес користувача, тобто спостереження за останніми діями його на сайті: кліки та перегляди сторінок - найважливіший параметр, який передбачає, які оголошення можуть отримати кліки.

Наприклад, ймовірність того, що користувач натисне на оголошення з певної категорії, збільшиться, якщо він нещодавно робив це з іншими оголошення з тієї ж категорії. Використовуючи короткостроковий інтерес користувачів, як один із основних інструментів для передбачення вибору рекомендацій контенту, нам вдалося збільшити середній показник CTR у кампаніях із продуктами на 3.5% та на 4,5% у контентних кампаніях.

Система негайно оновлюється на основі нової інформації про кліки та перегляди сторінок. Для кожного місця розташування оголошення, яке є частиною контексту вебсторінки та останніх дій користувача на сайті, механізм рекомендацій MGID шукає найрелевантніші оголошення, фільтрує дублікати чи відхилені оголошення, а потім показує відвідувачу рекламу.

Близькість спостережуваних дій у часі має значення: якби користувач натиснув на оголошення певної категорії навіть кілька днів тому, малоймовірно, що оголошення з тієї ж категорії було б для нього корисним сьогодні. Тому ми ідентифікуємо та зберігаємо лише останні дані про поведінку користувачів.

Висновок

Усі онлайн-гіганти борються за те, щоб покращити систему рекомендацій. З одного боку, смаки та поведінку людей ніколи не можна передбачити. Оскільки існує дуже багато різних факторів, і вони постійно змінюються. Однак можна оцінити ймовірні збіги та показати найбільш релевантні оголошення, використовуючи величезну кількість даних про переваги та поведінку.

У нативній рекламі механізм рекомендацій діє як третя сторона, яка врівноважує інтереси користувачів з налаштуваннями паблішерів та націлюванням рекламодавців. У такий спосіб рекомендації нативного контенту можуть підвищити зацікавленість читачів, а також збільшити кількість конверсій та продажів.

Тепер, коли ми розглянули основи того, як працюють системи рекомендацій контенту та як це робить MGID, ми запрошуємо вас зв'язатися з нами та дізнатися, як платформа MGID може допомогти вашому онлайн-бізнесу.

Олексій Борисов

Олексій Борисов - віце-президент продукту компанії MGID з більш ніж 10-річним досвідом роботи в AdTech. Олексій - визнаний експерт і лідер індустріх, і завжди фокусується на досягненні результату методом застосування інноваційних рішень. У MGID його роль зосереджена навколо інноваційного лідерства, впровадження перевірених рішень і пошуку нових способів поліпшення нашого основного продукту - глобальної рекламної платформи MGID. Олексій з нуля створив підрозділ з аналізу даних і сформував команду розробників, яка займається впровадженням нових функцій на платформі.