Ada 1,8 miliar website di internet, mungkin angka ini membuat Anda berpikir bahwa manusia sibuk membuat dan mengonsumsi konten internet. Namun faktanya, dari 1,8 miliar website, hanya 200 juta website (11%) yang aktif; dan dari semua traffic yang ada, lebih dari 60% dihasilkan oleh bot. Lebih jelasnya: ketika mendeteksi aktivitas yang tidak lazim di website Anda, Anda harus khawatir. Kemungkinan besar, aktivitas ini dihasilkan oleh bot yang ingin mencuri data atau konten Anda, atau yang biasa disebut web scraping,
Apa itu web scraping?
Web scraping adalah proses dari pengambilan atau ekstraksi data dari sebuah website. Proses ini bisa dilakukan secara manual atau otomatis. Bentuk paling sederhana dari web scraping adalah model copy & paste manual. Di level yang lebih "profesional" ada banyak sekali alat-alatnya, mulai dari software berbayar sampai pustaka Python gratis. Script otomatis mendeteksi URL Anda, menyamar sebagai pengguna dan mulai mengakses URL untuk mengambil data. Aktivitas bertubi-tubi dan intens ini sering mengganggu kinerja situs dan dapat merusak citra brand.
Apa guna dari web scraping?
Web scraper dapat digunakan untuk berbagai macam tujuan legal, di antaranya:
- melacak perilaku pengguna demi alasan penelitian atau marketing;
- analisis market (memantau kompetitor, agregasi berita, intelijen harga, dll.);
- memantau brand;
- mengumpulkan dan mengagregasi informasi bebas (seperti data mining pada gudang data publik, cantuman real estate dan aplikasi cuaca mengumpulkan informasi dari berbagai sumber di internet);
- melacak perubahan website
Di sisi lain, web scraping yang tak etis memungut informasi demi tujuan-tujuan seperti:
- mengumpulkan informasi kontak secara ilegal;
- mencuri konten;
- merusak kinerja sebuah website;
- menguras sumber daya website.
Zaman sekarang ini, membuat konten orisinal saja tidak cukup. Anda juga harus melindungi konten Anda secara aktif dan informasi yang dimuat di website Anda, dari ancaman-ancaman yang selalu ada. Maka, Anda harus tahu apa web scraping itu - dan apa yang bukan web scraping.
Web scraping vs web crawling
Web crawling adalah sebuah aktivitas (script otomatis) yang dilakukan sebuah bot untuk memungut dan mengindeks informasi tentang sebuah halaman web. Mesin pencarian mampu menghasilkan hasil pencarian karena ia merayap dan mengindeks hampir seluruh internet demi mencari keyword yang sesuai, sinyal otoritas, dll. Web crawling diciptakan untuk menemukan set data generik untuk mengindeks informati tentang website. Di sisi lain, web scraping melakukan lebih jauh untuk mengekstrak set data tertentu yang kemudian akan di analisis dan dieksploitasi.
Web scraping vs data mining
Data mining adalah sebuah aktivitas untuk mencari dan mengekstraksi data mentah dalam ukuran beras dari sumber mana pun, dengan tujuan menganalisis datanya untuk memperoleh informasi dan pengetahuan.
Web scraping dapat digunakan untuk tujuan data mining juga. Namun, data juga bisa digali dari berbagai macam sumber lainnya, seperti set data (database) atau cookie pribadi atau publik. Data mining dapat memberikan informasi tentang tren-tren penyakit, perilaku pembeli dan kesuksesan marketing, cuaca dan banyak lagi.
Web scraping vs screen scraping
Web scraping mengekstrak informasi spesifik di dalam website melalui permintaan html dan https. Screen scraping mengumpulkan pixel, misal, screen display data. Proses ini mendeteksi data visual yang ditampilkan di layar dan mengumpulkan elemen-elemen on-screen (teks atau gambar).
Screen scraping sering digunakan untuk melacak aktivitas atau perjalanan pengguna di sebuah website, untuk mengekstrak informasi dari halaman web sebuah perusahaan, atau untuk mencuri informasi pribadi pengguna.
Bagaimana cara melakukan web scraping?
Copy/paste bukanlah sebuah teknik scraping yang dapat ditingkatkan. Ancaman besar datang dari scraping yang lebih canggih, murah dan hemat sumber daya.
Bahasa pemrogram, Python, terutama, sering digunakan untuk mengekstrak informasi dengan command regex atau grep sederhana. Parsing membantu memahami kode html yang diterima setelah command. Lalu, informasi didekode dan ditata ulang menjadi sebuah format yang dapat dibaca.
Seluruh proses dapat membutuhkan beberapa menit sampai beberapa jam, bergantung pada kuantitas data.
Cara melindungi diri dari web scraping
Bagaimana cara Anda tahu bahwa Google, sebagai contoh, masih dapat merayap dan mengindeks website Anda, tapi konten Anda masih aman dan unik? Anda harus tetap waspada dan bekerja untuk melindungi data Anda secara aktif, menggunakan solusi-solusi apa pun di bawah yang paling cocok bagi Anda.
Bot khusus untuk manajemen software
- Teknologi CAPTCHA, seperti reCAPTCHA Enterprise, adalah sebuah lapisan keamanan untuk mencegah berbagai macam script dari mengakses konten.
- Cloudflare memberikan tidak hanya perlindungan CDN dan DDoS tapi juga keamanan mitigasi bot.
- Imperva (formerly Distil Networks) adalah sebuah alat yang mengatur traffic-traffic berbahaya di internet, mendeteksi dan menetralkan bot-bot berbahaya.
- DataDome adalah layanan lainnya yang menawarkan perlindungan melawan scraping, scalping, credential stuffing, serangan DDoS and penipuan kartu kredit.
Teknik-teknik anti-scraping lainnya
- Robots.txt adalah sebuah file yang menginstruksikan mesin pencarian apa yang bisa dirayap dan diindeks, mengizinkan akses kepada bot legal dan menolak akses kepada script-script mencurigakan.
- Sertifikat SSL hadir dalam bentuk ekstensi keamanan yang melindungi informasi pengguna. Sertifikat ini pengguna tidak hanya untuk melawan web scraping tapi juga sebagai keamanan umum tingkat minimum.
- Deteksi pola-pola penelusuran yang menyerupai bot, seperti volume item view yang tidak lazim, pantau akun-akun seperti ini dan blokir alamat IP tertentu. Untuk melakukan ini, Anda dapat menggunakan geolocation atau cari sebuahdaftar blokir berbasis DNS.
- Blokir permintaan HTTP dengan header User-Agent yang tidak diinginkan.
- Sering ubah html Anda, setidaknya pada tingkat id dan class. Karena scraper melakukan parse pada pola-pola html Anda dan memilah kode markup Anda, perubahan kecil dapat membuatnya bingung.
- Tambahkan honeypot untuk menjebak scraper. Solusi ini biasanya dilakukan dengan membuat halaman-halaman palsu yang tidak akan dikunjungi oleh manusia. Jika Anda mendeteksi aktivitas di halaman-halaman ini, Anda dapat memblokir IP-nya secara aman.
- Pembatasan permintaan, misal, batasi jumlah dari permintaan/tindakan dalam jangka waktu tertentu.
- Desak Syarat dan Ketentuan dengan mengharuskan para pengguna untuk mencentang kotak.
Kesimpulan
Data adalah tambang emas baru –– dan sangat mudah untuk mencurinya. Solusi apa pun yang disebutkan di atas dapat melindungi data. Tapi ingat bahwa langkah pertama adalah Anda harus sadar dan waspada akan bahaya yang ada. Sekarang ini, banyak bot yang mengakses URL Anda untuk mencari data yang dapat digunakan. Apakah Anda siap untuk menghadapinya? Lagi pula, reputasi brand bergantung pada kemampuan Anda dalam melindungi konten website dan informasi pengguna Anda.