Khi khách truy cập trang web lướt internet, họ để lại một lượng lớn dữ liệu về hành vi, chẳng hạn như các trang đã truy cập, những gì họ đã click vào và những gì họ đã chia sẻ trên truyền thông xã hội. Thông qua thử nghiệm, chúng tôi đã so sánh các thuật toán khác nhau và biết được những quảng cáo nào có xác suất được click cao nhất.
Hãy nhớ lại lúc bạn bè giới thiệu cho ta một bộ phim vào cuối tuần. Những lời khuyên của họ có dựa trên những gì họ biết ta thích, những gì họ thích và giả định cơ bản về sự tương đồng lẫn nhau hay bối cảnh hiện tại của cuộc trò chuyện không?
Ngày nay, ở hầu hết các điểm đến online, từ các cửa hàng thương mại điện tử đến rạp chiếu phim online và các nền tảng xã hội, luôn có các hệ thống đề xuất với nhiệm vụ là xem xét hành vi của người dùng từ nền tảng và đề xuất các mặt hàng mà họ có nhiều khả năng tương tác nhất.
Tất cả các ông trùm online đang cố gắng cải thiện việc cung cấp các đề xuất phù hợp nhất và được cá nhân hóa cho người dùng của họ. Trong bài viết này, ta sẽ xem qua các loại hệ thống đề xuất khác nhau, các thuật toán lọc và cách hoạt động của công cụ đề xuất nội dung MGID.
Công cụ đề xuất nội dung là gì?
Hệ thống đề xuất nội dung cung cấp những sự quan sát về hành vi của người dùng và dự đoán những điều khác mà người dùng sẽ phản hồi. Về cơ bản, chúng giúp tạo ra những trải nghiệm được cá nhân hóa giống như một người hiểu rõ bạn, biết những gì bạn thích, những gì người khác thích và hiểu những lựa chọn nào dành cho bạn.
Các lượt click của người dùng, lượt mua hàng, lượt xem, hành vi đọc hay các hành động khác có thể được biểu diễn bằng biểu đồ dưới dạng kết nối giữa các người dùng ở một bên và nội dung hoặc các hạng mục ở bên kia. Mỗi dòng có nghĩa là người dùng đã mua, xem hoặc click vào một hạng mục cụ thể. Trong một số hệ thống, các kết nối này có thể khác nhau về độ mạnh của chúng; ví dụ, chúng có thể xác định số lần một mặt hàng được mua hoặc xếp hạng phim trên thang điểm từ 1 đến 10. Do đó, vấn đề là xác định những dòng chưa biết nào khác có thể được thêm vào biểu đồ này và dự đoán sức mạnh của chúng.
Có hai loại hệ thống giới thiệu khác nhau, dựa trên mặt hàng hoặc việc lọc người dùng. Các thuật toán lọc dựa trên người dùng khá đơn giản; chúng đơn thuần chọn những người dùng khác có sở thích hoặc kiểu hành vi tương tự, sau đó phân tích những mặt hàng nào đã được những người dùng tương tự đó chọn, và đề xuất những thứ này cho người dùng mới.
Thay vào đó, các thuật toán dựa trên mặt hàng tìm kiếm các mặt hàng có liên quan trong toàn bộ danh mục. Ở đây, thuật ngữ ‘liên quan’ nên được xác định theo từng trường hợp. Thông thường, nó có nghĩa là mặt hàng A được chọn (mua, click, xem...) với tần suất cao bất thường bởi những người dùng cũng chọn mặt hàng B (mặt hàng có liên quan).
Lịch sử của công cụ đề xuất
Năm 1998, khi vẫn còn là một cửa hàng sách, Amazon đã ra mắt một công cụ đề xuất từng mặt hàng rất đơn giản. Thuật toán đầu tiên của họ dựa trên việc lọc chung và đề xuất các mặt hàng mới để mua dựa trên những gì người dùng đã có trong giỏ hàng. Tính năng này đã được người dùng đón nhận rất tích cực và kể từ đó, các hệ thống giới thiệu đã trở nên phổ biến trên khắp trang web.
Năm 2003, Amazon và các nhà khai thác thương mại điện tử lớn khác đã làm cho tính năng này tinh vi hơn: lúc bấy giờ, nó cung cấp các đề xuất dựa trên những giao dịch mua trước đây của người dùng và các mặt hàng được xem qua trong cửa hàng. Các trang kết quả tìm kiếm có một thuật toán khác làm nổi bật những mặt hàng liên quan nhiều hơn đến tìm kiếm. Nhiều trang có ít nhất một số nội dung được đề xuất, bao gồm các trang được duyệt, các trang chi tiết sản phẩm và các trang khác. Vào thời điểm đó, khoảng 30% trong số tất cả các lần xem trang trên Amazon đến từ hệ thống giới thiệu.
Sau đó, những tên tuổi online trong lĩnh vực giải trí, du lịch và các lĩnh vực khác cũng bắt đầu sử dụng các thuật toán đề xuất. Netflix đã sử dụng tính năng này rộng rãi đến mức vào năm 2006, họ đã công bố một cuộc thi ML cho việc dự đoán xếp hạng phim, Giải thưởng Netflix. Họ đã dành 1 triệu đô la để cải thiện độ chính xác của hệ thống đề xuất phim. Các giải pháp và thuật toán khác nhau đã được đánh giá dựa trên cách chúng có thể giảm thiểu root mean squared error (RMSE) của xếp hạng dự đoán, với mức giảm 10% được đặt làm mục tiêu.
Cuối cùng, vào những năm 2010, các nhà phát hành kỹ thuật số và trang web tin tức cũng bắt đầu sử dụng đề xuất khám phá nội dung, đề xuất các bài viết bổ sung cho khách truy cập dựa trên hành vi hoặc sở thích hiện tại của họ. Các bài viết được đề xuất này có thể dẫn đến nội dung từ cùng một trang hoặc đến các trang khác, hiển thị nội dung video, hoặc xem trước các định dạng web khác.
Các đề xuất trên trang có thể tăng mức độ tương tác của người dùng với trang của nhà phát hành và giảm tỷ lệ thoát, trong khi các đề xuất ngoài trang thì được sử dụng để thúc đẩy những dự án nội dung bên ngoài, quảng cáo sản phẩm và tạo khách hàng tiềm năng.
Ngày nay, các nhà phát hành thêm những đề xuất khám phá nội dung theo nhiều cách khác nhau, từ các plugin đơn giản đến các nền tảng chuyên dụng với chức năng đa dạng. Một ví dụ là nền tảng MGID, nền tảng đầu tiên cung cấp các widget đề xuất nội dung, định dạng phổ biến nhất hiện nay.
Một số công cụ đề xuất (chủ yếu là các plugin) dựa trên phân tích từ khóa và thẻ tag để đề xuất nội dung tương tự như nội dung mà người dùng hiện đang tiêu thụ. Những công cụ khác thì điều tra hành vi của người dùng, cách họ tương tác với những nội dung khác nhau, sở thích của họ, và nhân khẩu học xã hội để đưa ra các đề xuất.
Lọc tương quan và lọc dựa trên nội dung
Có hai cách tiếp cận chung để xây dựng các thuật toán đề xuất, lọc dựa trên nội dung và lọc tương quan.
Lọc dựa trên nội dung gắn nhãn từng mặt hàng hoặc người dùng với các đặc điểm nhất định và sau đó xem xét các tính năng này, đưa ra những giả định về sự giống nhau của chúng. Ta phải hiểu rõ về sản phẩm hoặc đối tượng khán giả để đưa ra phỏng đoán về họ. Ví dụ, công cụ giới thiệu phải biết thể loại cụ thể của phim, quốc gia xuất xứ, đạo diễn, ngày phát hành... để kết luận chúng tương tự nhau và đề xuất một bộ phim khi người dùng bày tỏ sự quan tâm đến bộ phim khác.
Trái với lọc nội dung, các hệ thống phối hợp không yêu cầu chuyên môn sâu về sản phẩm hoặc phân loại rộng vì chúng xem xét hành vi thực tế của người dùng. Các tính năng hoặc đặc điểm được trích xuất trực tiếp từ dữ liệu lịch sử về các tương tác trước đây giữa người dùng và mặt hàng. Công cụ này phát triển một ma trận khổng lồ với người dùng và mặt hàng, xác định các cụm chung để đưa ra đề xuất. Ngoài ra, các thước đo khoảng cách thích hợp có thể được sử dụng để phân rã ma trận.
Do đó, các hệ thống giới thiệu phối hợp có thể được phân thành hai loại khác nhau:
lọc dựa trên bộ nhớ
Các hệ thống này tìm sự tương tự giữa từng mặt hàng hoặc từng người dùng. Về cơ bản, nó đưa ra các đề xuất dựa trên việc bất kỳ ai đã mua (hoặc xem, click…) sản phẩm A và cũng đã mua sản phẩm B. Các hệ thống dựa trên bộ nhớ có thể rất chính xác, nhưng chúng yêu cầu phân cụm đa chiều và khó mở rộng.
lọc dựa trên mô hình
Ở đây, thuật toán dựa trên phân rã ma trận: ta phải chỉ định một số đặc trưng (tham số) và trọng số nhất định cho các tính năng này, tức là xây dựng mô hình toán học để dự đoán độ tương tự của mặt hàng. Ta cũng phải chọn hàm mục tiêu cho mô hình, ví dụ như khả năng mua hàng.
Tóm lại, các mô hình dựa trên nội dung có thể được sử dụng khi biết được tất cả các tính năng liên quan đến mặt hàng và người dùng. Mặt khác, việc lọc tương quan phân phối các đề xuất mà không có kiến thức chuyên môn sâu về sản phẩm hoặc khi có xác suất kết luận sai lệch cao. Để tận dụng kiến thức chuyên môn về sản phẩm sẵn có và tránh những sai lệch tiềm ẩn, có thể sử dụng lọc hỗn hợp.
Công cụ đề xuất nội dung của MGID
Thuật toán của MGID chọn các quảng cáo tự nhiên mà người dùng có thể quan tâm nhất dựa trên hành vi trước đây của họ và bối cảnh hiện tại của trang. Chức năng mục tiêu mà công cụ thiết lập để cải thiện là CTR (tỷ lệ click-through) của người dùng, tức là hệ thống dự đoán khả năng người dùng click vào các quảng cáo khác nhau và hiển thị quảng cáo có xác suất cao nhất.
Thuật toán dựa trên lọc dựa trên mặt hàng kết hợp, tức là hệ thống đề xuất kết hợp dữ liệu từ các thuật toán dựa trên nội dung (sử dụng các danh mục nội dung của trang web và quảng cáo, nhân khẩu học xã hội, sở thích của đối tượng khán giả...) với các thuật toán dựa trên hành vi (sử dụng số lần xem trang, số lượt click và số lần hiển thị trước đây của người dùng).
Tầm quan trọng của sự quan tâm ngắn hạn của người dùng
Khi xây dựng hệ thống đề xuất, chúng tôi nhằm mục đích phân biệt các tính năng hoặc thông số có thể giúp chúng tôi hiển thị quảng cáo có liên quan và đáng click vào nhất. Dựa trên một loạt các thử nghiệm và kiểm tra, chúng tôi đã xác định rằng sở thích ngắn hạn của người dùng, tức là những sự quan sát các hành động gần đây nhất của người dùng trên trang, chẳng hạn như lượt click và xem trang, là thông số quan trọng nhất để dự đoán quảng cáo nào có thể được click vào.
Ví dụ, khả năng một người dùng click vào quảng cáo từ một danh mục cụ thể sẽ tăng lên nếu gần đây họ đã click vào các quảng cáo khác từ cùng một danh mục. Sử dụng sở thích ngắn hạn của người dùng làm một trong những yếu tố dự đoán chính để chọn đề xuất nội dung, chúng tôi có thể tăng CTR trung bình lên 3,5% trong các chiến dịch sản phẩm và 4,5% trong các chiến dịch nội dung.
Hệ thống cập nhật ngay lập tức dựa trên thông tin mới về số lượt click và số lần xem trang của người dùng. Đối với mỗi vị trí đặt quảng cáo là một phần của ngữ cảnh trang web và hành động gần đây của người dùng trên trang, công cụ đề xuất MGID sẽ tìm kiếm các quảng cáo phù hợp nhất, lọc các quảng cáo trùng lặp hoặc bị loại bỏ, và sau đó quảng cáo được hiển thị cho khách truy cập.
Mức độ gần nhau của các hành động được quan sát theo thời gian là rất quan trọng: nếu người dùng đã click vào quảng cáo từ một danh mục cụ thể dù chỉ vài ngày trước, thì có rất ít bằng chứng cho thấy quảng cáo từ cùng danh mục sẽ hữu ích cho họ vào hôm nay. Do đó, chúng tôi chỉ xác định và lưu trữ dữ liệu gần đây về hành vi của người dùng.
Tóm lại
Tất cả những ông trùm online đang chiến đấu để cải thiện hệ thống đề xuất. Mặt khác, thị hiếu và hành vi của người ta không bao giờ có thể được dự đoán một cách hoàn hảo vì có rất nhiều điểm khác nhau và chúng luôn thay đổi. Tuy nhiên, có thể ước tính các kết quả phù hợp có thể xảy ra nhất và hiển thị các quảng cáo có liên quan nhất bằng cách sử dụng một lượng lớn dữ liệu về sở thích và hành vi.
Trong quảng cáo tự nhiên, công cụ đề xuất hoạt động như một bên thứ ba cân bằng lợi ích của người dùng với cài đặt của nhà phát hành và việc nhắm mục tiêu của nhà quảng cáo. Bằng cách này, các đề xuất nội dung tự nhiên có thể thúc đẩy sự tương tác của người đọc, cũng như mang lại nhiều sự chuyển đổi và bán hàng hơn.