Data scraping biasanya mengumpulkan data dari
screen outputs atau mengekstrak data dari kode
HyperText Markup Language (“HTML”) yang paling
sering ditampilkan oleh sebagian besar websites
(Lindenberg). Sehingga aplikasi tidak mengambil
dari selain dari yang disediakan/dihasilkan oleh
interface website yang di-scrape.
Algoritma akan menganalisis analisis konten halaman
situs (Bakaev & Avdeenko, 2014). Web scraping
yang diterapkan pada penelitian ini hanya
berhubungan dengan informasi yang berhubungan
dengan metadata atau informasi terkait bibliography
dari suatu artikel ilmiah. Sehingga apabila link lokasi
pdf file yang ter-scrap merupakan open access link,
maka user dapat men-download pdf artikel tersebut.
Namun, apabila link tersebut bersifat close source,
tentu pihak web host akan mem-block access hanya
kepada yang memiliki otoritasnya, misalnya dengan
memasukkan id dan pasword. Sehingga aspek legal
dari aplikasi yang dibahas pada artikel ini tidak
melanggar pihak manapun. Selain itu, penerapan
pada artikel ini adalah pada portal-portal yang
menyediakan layanan gratis, seperti: 1) Portal
Garuda, 2) ISJD, dan 3) Google Scholar.
Selain itu, scrapers pada artikel ini bersifat “mutual
benefit” yang dapat membantu “scraped websites”
(Hirschey, 2014) mendesiminasikan artikel ilmiah
mereka, karena tujuan utama dari situs artikel ilmiah
adalah menjadikan koleksi mereka diakses oleh
sebanyak mungkin golongan yang membutuhkannya.
Selanjutnya, pihak ketiga (scrapper) boleh beroperasi
deep-links dengan membuat suatu page dengan cara
tertentu sehingga pengguna website ditampilkan
dengan informasi yang muncul seperti yang dimiliki
penaut, dimana sang linker membenamkan suatu
hyperlink di kodenya untuk membawa user ke konten
data yang asli dari pemilik situs (Jennings & Yates,
2009).
Sumber : https://arxiv.org/ftp/arxiv/papers/1410/1410.5777.pdf
Tidak ada komentar:
Posting Komentar