Bất chấp những nguy cơ tiềm ẩn của tấn công DDOS và các mối đe dọa bảo mật khác, nhiều nhà xuất bản không nhận ra vấn đề và bỏ qua lưu lượng truy cập bot bởi mong muốn có số lượng truy cập cao. Trên thực tế, việc không quản lý bot hiệu quả có thể khiến toàn bộ dự án gặp rủi ro, tổn hại trải nghiệm người dùng hoặc khiến các nhà quảng cáo quay lưng với không gian quảng cáo của trang web.
Nói chung, bot đại diện cho các ứng dụng thực hiện những tác vụ lặp lại tự động trên quy mô lớn, chẳng hạn như xếp hạng trang web cho mục đích SEO, tổng hợp nội dung hoặc trích xuất thông tin. Các bot thường được phân phối thông qua một botnet, nghĩa là các copy được kết nối của phần mềm bot chạy trên nhiều máy có địa chỉ IP khác nhau. Từ góc độ của chủ sở hữu trang web, bot có thể tốt, xấu hoặc vô hại. Hãy cùng tìm hiểu những gì chúng làm trên trang web của ta và cách có thể kiểm soát tình hình.
Các bot tốt và cách cho phép chúng
Các bot tốt được xây dựng để hoàn thành những nhiệm vụ phù hợp với mục tiêu của nhà xuất bản. Một trong những loại phổ biến nhất là spider bots, được sử dụng bởi các công cụ tìm kiếm hoặc dịch vụ trực tuyến để khám phá nội dung, xếp hạng các trang, và làm cho trang web khả dụng qua các kết quả tìm kiếm. Một ví dụ khác là comparison bots, giúp người dùng tìm thấy sản phẩm hoặc ưu đãi thông qua các dịch vụ so sánh giá. Cuối cùng, các bot dữ liệu giúp tổng hợp nội dung về một chủ đề cụ thể hay cung cấp thông tin cập nhật về các bài đăng mới, dự báo thời tiết, tỷ giá...
Ta có thể quản lý các bot tốt bằng cách sử dụng file robots.txt đặt trong thư mục chủ của mình. Khi thực hiện các thay đổi cần thiết trong file này, ta có thể đưa các ‘spider’ vào danh sách trắng mà mình quan tâm hoặc chỉ định những trang chính xác mà ta muốn chúng thu thập thông tin.
Để tránh đánh giá lệch lạc đối tượng khán giả, ta có thể loại trừ tất cả các hit từ những bot tốt trong Google Analytics. Ta cũng có thể đặt danh sách IP cụ thể để bỏ qua các spider và các bot tốt khác với những nguồn đã biết trong báo cáo phân tích.
Một số bot tốt cũng có thể không liên quan đến mục tiêu kinh doanh của chúng ta. Ví dụ, một số bot nhất định có thể thu thập dữ liệu trang web để tìm kiếm các danh mục nội dung không liên quan đến dự án. Ta cũng có thể cần loại bỏ những bot không liên quan này bằng cách chặn IP của chúng hoặc loại khỏi danh sách cho phép dành cho bot.
Ngăn chặn lưu lượng truy cập bot độc hại và các tấn công của bot
Các bot xấu sẽ gây thiệt hại cho trang web và có thể có nhiều loại. Có lẽ nguy hại nhất là loại dùng vỏ bọc như khách truy cập và vượt qua các hệ thống bảo mật của trang web để đánh sập trang. Imposter bots ngụy trang thành bot tốt và cắt nội dung web để đăng trên các trang khác, thu thập thông tin đăng nhập hay địa chỉ email của người dùng, vi phạm các điều khoản dịch vụ của trang web hay thực hiện các hành vi độc hại khác. Từ nghiên cứu năm ngoái, ta biết rằng hơn một nửa bot xấu là Google Chrome. Trái lại Fraud bots hoạt động ngoài tầm kiểm soát và cố gắng lấy cắp thông tin, chẳng hạn như dữ liệu cá nhân, thông tin thẻ tín dụng… hay thậm chí chiếm quyền điều khiển server dữ liệu.
Các ví dụ phổ biến về bot độc hại là các vụ tấn công DOS và DDOS. Tấn công từ chối dịch vụ (DOS) sử dụng một máy duy nhất nhắm vào điểm yếu của trang web hoặc gửi một số lượng lớn các gói tin hay yêu cầu. Tuy nhiên, tấn công DDOS liên quan đến nhiều máy hay botnet được kết nối cho những mục đích giống nhau. Hậu quả của các vụ tấn công bot này là không còn nguồn lực để phục vụ người dùng dự định. Các vụ tấn công bot DDOS rất thường được thực hiện để bắt các chủ doanh nghiệp trả tiền chuộc cho cơ sở hạ tầng của họ; những bot này được gọi là ransomware.
Trong một số trường hợp, tỷ lệ thoát cao và lượt xem trang cao bất thường có thể cho thấy sự tồn tại của các bot xấu, bởi vì hành vi của con người thường có tỷ lệ thoát thấp hơn. Nói chung, để phát hiện lưu lượng bot độc hại, ta phải xem xét tất cả các yêu cầu mạng mà trang web nhận được và phân tích các log file cố gắng xác định những yêu cầu đáng ngờ, hành vi không chắc chắn hay bất thường. Ví dụ, ta có thể thấy lưu lượng truy cập tăng đột biến từ một khu vực bất thường, thời lượng phiên thấp hơn bình thường...
Chắc chắn rằng, việc phát hiện không ngăn chặn được các vụ tấn công. Khi phát hiện điểm yếu của trang web và dấu vết của các bot độc hại, ta phải sử dụng các công cụ và cơ chế khác để chặn chúng. Tùy thuộc vào logic kinh doanh của trang, ta có thể bảo vệ các API bị lộ, thêm CAPTCHA tại một số điểm, giới hạn lưu lượng mạng theo IP hay vị trí, giới hạn tần suất gửi yêu cầu của khách truy cập...
Đối với các dự án web lớn, cần triển khai hệ thống quản lý bot cho phép phân biệt chi tiết lưu lượng bot. Một số giải pháp quản lý bot phổ biến có thể kể đến là Cloudflare, ClickGUARD, Radware và Akamai.
Tác động đến quảng cáo
Các bot có thể gây tiêu hao đáng kể ngân sách tiếp thị và làm sai lệch dữ liệu chiến dịch. Ngoài ra, một số botnet dựa trên cloud có thể tạo số lần hiển thị hoặc click vào quảng cáo sai, được gọi là gian lận click. Để duy trì niềm tin vào hệ sinh thái quảng cáo, nhà xuất bản phải cung cấp dữ liệu chính xác về đối tượng khán giả và chặn các hoạt động gian lận click trên trang web. Cho đến nay, nếu ta kiếm tiền từ một trang web thông qua quảng cáo và có một số loại gian lận click hay dữ liệu lưu lượng truy cập tăng cao đáng kể, tất cả các nhà cung cấp quảng cáo lớn có nghĩa vụ cấm trang đó khỏi mạng lưới.
Tại MGID, chúng tôi tự hào được công nhận là có khả năng phát hiện lưu lượng truy cập bot và gian lận quảng cáo. Vào năm 2020, MGID đã nhận TAG Certified Against Fraud Seal (Chứng nhận Chống Gian lận TAG) cho giải pháp chống gian lận độc quyền của mình. Chúng tôi cũng sử dụng công cụ phát hiện gian lận Anura để đảm bảo chất lượng lưu lượng truy cập. Ngoài ra, chúng tôi có một đội ngũ phân tích nội bộ, là những người thường xuyên kiểm tra lưu lượng truy cập theo cách thủ công.
Kết luận
Ngày nay, khoảng 40% lưu lượng truy cập Internet là lưu lượng truy cập bot, với các bot độc hại có lẽ là một trong những vấn đề đau đầu nhất đối với nhiều nhà phát hành. Để bảo vệ trang web của mình khỏi lưu lượng truy cập bot không mong muốn, chúng tôi khuyên nên sử dụng một trong các giải pháp quản lý bot hiện đại, chẳng hạn như Cloudflare, ClickGUARD, Radware hoặc Akamai. Ta cũng có thể kiểm soát các bot tốt, chẳng hạn như spiders hay crawlers, bằng cách thay đổi cài đặt trong file "robots.txt".