Rabu, 01 Juni 2016

Aspek legal Web Scrapping

Data scraping biasanya mengumpulkan data dari screen outputs atau mengekstrak data dari kode HyperText Markup Language (“HTML”) yang paling sering ditampilkan oleh sebagian besar websites (Lindenberg). Sehingga aplikasi tidak mengambil dari selain dari yang disediakan/dihasilkan oleh interface website yang di-scrape. Algoritma akan menganalisis analisis konten halaman situs (Bakaev & Avdeenko, 2014). Web scraping yang diterapkan pada penelitian ini hanya berhubungan dengan informasi yang berhubungan dengan metadata atau informasi terkait bibliography dari suatu artikel ilmiah. Sehingga apabila link lokasi pdf file yang ter-scrap merupakan open access link, maka user dapat men-download pdf artikel tersebut. Namun, apabila link tersebut bersifat close source, tentu pihak web host akan mem-block access hanya kepada yang memiliki otoritasnya, misalnya dengan memasukkan id dan pasword. Sehingga aspek legal dari aplikasi yang dibahas pada artikel ini tidak melanggar pihak manapun. Selain itu, penerapan pada artikel ini adalah pada portal-portal yang menyediakan layanan gratis, seperti: 1) Portal Garuda, 2) ISJD, dan 3) Google Scholar. Selain itu, scrapers pada artikel ini bersifat “mutual benefit” yang dapat membantu “scraped websites” (Hirschey, 2014) mendesiminasikan artikel ilmiah mereka, karena tujuan utama dari situs artikel ilmiah adalah menjadikan koleksi mereka diakses oleh sebanyak mungkin golongan yang membutuhkannya. Selanjutnya, pihak ketiga (scrapper) boleh beroperasi deep-links dengan membuat suatu page dengan cara tertentu sehingga pengguna website ditampilkan dengan informasi yang muncul seperti yang dimiliki penaut, dimana sang linker membenamkan suatu hyperlink di kodenya untuk membawa user ke konten data yang asli dari pemilik situs (Jennings & Yates, 2009).

Sumber : https://arxiv.org/ftp/arxiv/papers/1410/1410.5777.pdf  

Tidak ada komentar:

Posting Komentar