Sabtu, 04 Juni 2016

Mesin Pencari WEB

Mesin pencari web (bahasa Inggrisweb search engine) adalah program komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan wwwftppublikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan. Search engine merupakan perangkat pencari informasi dari dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basisdata ataupun direktori web.
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan basisdata tertutup, di antaranya yang paling populer adalah Google (MSN Search danYahoo!). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open source), contohnya adalah HtdigNutchEgothor dan OpenFTS.
Saat awal perkembangan internet, Tim Berners-Lee membuat sebuah situs web yang berisikan daftar situs web yang ada di internet melalui peladen web CERN. Sejarah yang mencatat sejak tahun 1992 masih ada hingga kini.Dengan semakin banyaknya situs web yang aktif membuat daftar ini tidak lagi memungkinkan untuk dikelola oleh manusia. Utilitas pencari yang pertama kali digunakan untuk melakukan pencarian diinternet adalah Archie yang berasal dari kata "archive" tanpa menggunakan huruf "v".[3] Archie dibuat tahun 1990 oleh Alan Emtage, Bill Heelan dan J. Peter Deutsch, saat itu adalah mahasiswa ilmu komputer Universitas McGill, Amerika Serikat. Cara kerja program tersebut adalah mengunduh daftar direktori serta berkas yang terdapat pada layanan ftp publik (anonim) kemudian memuatnya ke dalam basisdata yang memungkinkan pencarian.
Mesin pencari lainnya seperti Aliweb, muncul di 1993 dan masih berjalan hingga saat ini. Salah satu mesin pencari pertama yang sekarang berkembang menjadi usaha komersial yang cukup besar adalah Lycos, yang dimulai di Carnegie Mellon University sebagai proyek riset pada tahun 1994.
Segera setelah itu, banyak mesin pencari yang bermunculan dan bersaing memperebutkan popularitas. Termasuk di antaranya adalah WebCrawlerHotbotExciteInfoseekInktomi, dan AltaVista. Masing-masing bersaing dengan menambahkan layakan-layanan tambahan seperti yang dilakukan oleh Yahoo.
Tahun 2002 Yahoo! mengakuisisi Inktomi, setahun kemudian mengakuisisi AlltheWeb dan Altavistakemudian meluncurkan mesin pencari sendiri yang didasarkan pada teknologi gabungan dari mesin-mesin pencari yang telah diakuisisinya serta memberikan layanan yang mengutamakan pencarian Web daripada layanan-layanan lainnya.
Di bulan desember 2003, Orase menerbitkan versi pertama dari teknologi pencari waktu-riilnya. Mesin ini memiliki banyak fungsi baru dan tingkat unjuk kerja yang jauh lebih baik.
Mesin pencari juga dikenal sebagai target investasi internet yang terjadi pada akhir tahun 1990-an. Beberapa perusahaan mesin pencari yang masuk ke dalam pasar saham diketahui mencatat keuntungan besar. Sebagian lagi sama sekali menonaktifkan layanan mesin pencari, dan hanya memasarkannya pada edisi-edisi enterprise saja, contoh Northern Light sebelumnya diketahui merupakan salah satu perintis layanan mesin pencari di internet.
Buku Osmar R. Zaïane From Resource Discovery to Knowledge Discovery on the Internet menjelaskan secara rinci sejarah teknologi mesin pencari sebelum munculnya Google. Mesin-mesin pencari lainnya mencakup a9.comAlltheWebAsk JeevesClustyGigablastTeomaWisenutGoHookKartoo, danVivisimo.

Sumber : https://id.wikipedia.org/wiki/Mesin_pencari_web

Rabu, 01 Juni 2016

PENGGUNAAN WEB CRAWLER UNTUK MENGHIMPUN TWEETS DENGAN METODE PRE-PROCESSING TEXT MINING

Saat ini jumlah data di media sosial sudah terbilang sangat besar, namun jumlah data tersebut masih belum banyak dimanfaatkan atau diolah untuk menjadi sesuatu yang bernilai guna, salah satunya adalah tweets pada media sosial twitter. Paper ini menguraikan hasil penggunaan engine web crawelmenggunakan metode pre-processing text mining. Penggunaanengine web crawel itu sendiri bertujuan untuk menghimpuntweets melalui API twitter sebagai data teks tidak terstruktur yang kemudian direpresentasikan kembali kedalam bentuk web. Sedangkan penggunaan metode pre-processing bertujuan untuk menyaring tweets melalui tiga tahap, yaitu cleansingcase folding, dan parsing. Aplikasi yang dirancang pada penelitian ini menggunakan metode pengembangan perangkat lunak yaitu model waterfall dan diimplementasikan dengan bahasa pemrograman PHP. Sedangkan untuk pengujiannya menggunakan black box testing untuk memeriksa apakah hasil perancangan sudah dapat berjalan sesuai dengan harapan atau belum. Hasil dari penelitian ini adalah berupa aplikasi yang dapat mengubah tweets yang telah dihimpun menjadi data yang siap diolah lebih lanjut sesuai dengan kebutuhan user berdasarkan kata kunci dan tanggal pencarian. Hal ini dilakukan karena dari beberapa penelitian terkait terlihat bahwa data pada media sosial khususnya twitter saat ini menjadi tujuan perusahaan atau instansi untuk memahami opini masyarakat.

Sumber : http://ejournal.st3telkom.ac.id/index.php/infotel/article/view/132

Bagaimana Mengukur Mutu Website?

Website sebagai sebuah media informasi, komunikasi, dan publikasi dapat mempengaruhi persepsi pelanggan atau masyarakat secara umum yang mengunjungi website tersebut. Hasil penelitian Kuzic and Giannator (2010) menunjukkan bahwa kunjungan dan evaluasi terhadap sebuah website perusahaan dapat merubah persepsi pelanggan tentang citra perusahaan tersebut.
Bailin and Pullinger (2009) menyatakan bahwa persepsi tentang organisasi dipengaruhi oleh pengalaman pelanggan dalam mengunjungi website organisasi tersebut. Organisasi pemerintah pun harus mengukur kualitas website yang meliputi aspek delivery of site objectives, user satisfaction, usability. standards compliance, dan editorial quality. Kepuasan pengguna website merupakan ukuran utama dari kualitas website.  Manfaat dari pelaksanaan survey kepuasaan pengguna website meliputi (1) identifikasi pelanggan atau profil demografi pelanggan, (2) Identifikasi kekuatan dan kelemahan website, (3) rekomendasi perbaikan website, (4) hasil survey dapat digunakan sebagai masukan untuk perencaan strategis  dari website, dan (5) pemahaman yang lebih baik mengenai kinerja web site melalui benchamarking dengan website lain.
Beberapa fitur website yang dapat mempengaruhi persepsi adalah kemudahan navigasi, konten, kesan pertama terhadap tampilan website. Peringkat lima atribut yang mempengaruhi citra perusahaan adalah kemudahan navigasi, penaaman atau alamat URL yang intuitif, kontak yang lengkap, dan ketersediaan informasi yang bermanfaat.
Sekarang mari kita lihat sekilas bagaimana para peneliti bisa mengukut mutu sebuah website perusahaan. Webqual pada dasarnya mengukur mutu sebuah web berdasarkan persepsi dari pengguna atau pengunjung situs. Jadi pengukurannya menggunakan instrumen penelitian atau kuisener, yang oleh penemunya dibuat berdasarkan konsep house of quality dengan struktur instrumennya juga mengacu ke model SERVQUAL.
Ya, SERVQUAL adalah model yang sudah dikenal sebelumnya dalam mengukur kualitas jasa. Model tersebut pertama kali dikemukan oleh Parasuraman. Selanjutnya pada tahun 2002 Parasuraman bersama Zeithaml dan Maholtra mengembangkan model tersebut khusus untuk layanan berbasis internet atau e-service. Ketiga pakar tersebut mengemukakan model konseptualnya seperti terlihat pada gambar berikut.
Sumber : http://pena.gunadarma.ac.id/bagaimana-mengukur-mutu-website/

Hosting – List Bad Crawler/Bot/Spider dan Cara Memblokirnya Dari .htaccess

Internet Bot, atau biasa disebut bot/spider/crawler, adalah aplikasi piranti lunak yang menjalankan tugas tertentu secara otomatis pada internet. Secara umum bot menjalankan sebuah tugas sederhana yang dilakukan secara berulang dan terstruktur. Beberapa perusahaan web di dunia semacam google menggunakan bot untuk mengumpulkan informasi situs-situs yang berada di internet, agar dapat ditemukan pada aplikasi pencarian mereka. Namun ada beberapa yang menggunakan bot untuk kejahatan, seperti mengambil secara illegal (scrapping/crawler) konten website atau mengambil alamat e-mail guna tujuan spamming. Ada juga tipe bot yang digunakan untuk melakukan aksi DDOS, yang tentunya menghabiskan bandwidth dan merugikan pemilik website. Berikut adalah list bot yang sebaiknya diblokir, serta formatnya via .htaccess.
Yang perlu dilakukan hanya mengedit file .htaccess yang terletak pada direktori utama website (public_html) melalui file manager di cpanel (pastikan opsi “show hidden files” dipilih), dan masukkan kode .htaccess di atas.
Demikian artikel tentang list Bad Crawler/Bot dan penerapannya via .htaccess, semoga bermanfaat.
Sumber : http://blog.ardhosting.com/2013/06/24/hosting-list-bad-crawlerbot-dan-cara-memblokirnya-dari-htaccess/

Tahukah cara kerja mesin pencari Google ?

Mesin pencari yang sangat handal bernama google, siapa yang tidak mengenal google saat ini. Setiap hari kita semua menjadi saksi bagaimana kehebatan google dalam melayani kita semua untuk mengakses informasi secara detail. Namun apakah anda semua tidak penasaran bagaimana Google mampu menyajikan hasil yang cocok dari triliunan halaman website yang tersedia hanya berdasarkan kata kunci yang kita ketik.

Search engine melayani pengguna dengan menyajikan informasi yang spesifik yang mereka cari melalui website. Ini adalah tool yang sangat ampuh yang menawarkan hasil pencarian yang spesifik dan cepat bagi pengguna dengan memberikan informasi yang disimpan di website lain. Mereka memberikan kemudahan pada pengguna untuk mengakses informasi diberbagai website. Para pengguna cukup mengetik saja permintaan mengenai suatu informasi yang mereka cari dan sisanya adalah pekerjaan mesin pencari untuk memberikan hasil yang relevan.

Diantara beberapa mesin pencari yang tersedia di dunia internet, Google adalah mesin pencari yang paling banyak digunakan dan paling dominan diantara mesin pencari lain.

Mesin pencari google dimiliki oleh Google Inc. Pertama kali dibangun oleh Larry Page dan Sergey Brin pada tahun 1997. Setiap hari ada lebih dari miliaran hit terjadi di website google dari seluruh dunia, ini sudah cukup untuk menggambarkan kepada kita bagaimana populernya google ini.

Tampilan utama google sangatlah sederhana, bisa dilihat pada gambar diatas, google cenderung berpenampilan simpel untuk memukau para penggunanya. Yang unik dari tampilan website ini adalah terkadang mereka merubah logo google agar sesuai dengan hari-hari tertentu dan pada tanggal-tanggal tertentu, semisal tahun baru, atau perayaan hari besar agama. Biasa dikenal dengan google doodle.

Bagaimana Cara Kerja Google

Ada triliunan halaman web yang tersedia di web (google bahkan saat artikel ini dibuat menuliskan ada 60 trillion individual pages , dan itu akan terus bertambah), yang sebagian besar memiliki judul halaman sesuai yang diinginkan oleh pemilik/penulis nya. Mari kita lihat bagaimana Google mampu memberikan hasil pencarian yang luar biasa dari ratusan halaman web yang tersedia.

Mesin pencari Google menggunakan perangkat lunak yang biasa dikenal dengan istilah Spider atau Web Crawler untuk mencari data dari berbagai web.

Software Spider atau Web Crawler adalah program yang dibuat agar berjalan otomatis yang menjaring website-website yang ada di internet dan mengambil data-data yang tersimpan didalam miliaran website tersebut dan menampilkan nya ke halaman hasil pencarian berupa link menuju halaman-halaman website tersebut. Googlebot adalah istilah untuk software laba-laba yang digunakan oleh mesin pencari Google.

Mesin pencari dimulai dengan sebuah modul crawler dimana spider/crawler atau googlebot dikirim ke Web untuk menjelajah website-website yang ada. Spider memulai dengan mengambil beberapa halaman web, lalu mereka mengikuti link yang ada pada halaman tersebut dan mengambil halaman yang terkait dan sebagainya, jika anda penasaran bisa melihat contoh sederhana bagaimana kita bisa mendapatkan semua link yang ada pada website hanya dengan PHP.

Ada miliaran halaman yang tersimpan pada ribuan mesin. Spider mengekstrak data yang ada pada setiap halaman dari setiap situs web dan menyimpan dalam repositori mereka. Kemudian data dikirim ke modul indexing, kemudian dipilah isi dari halaman tersebut dan mengekstrak elemen kunci seperti tag judul, tag deskripsi, data tentang gambar dan link internal. Pada dasarnya, modul indexing (pengindeksan) memberikan ringkasan yang benar-benar intisari dari setiap halaman web, seperti catatan-catatan tertentu. Kemudian data tesebut ditempatkan di dalam database yang disebut Index. Semua kegiatan tersebut berjalan terus sepanjang waktu meskipun permintaan dilakukan oleh user atau tidak. Googlebot akan terus mencari dan mengambil halaman yang dibolehkan (biasanya ada settingan allow dan disallow terhadap aktivitas googlebot ini, googlebot hanya akan mengambil yang dibolehkan oleh sang pemilik web, pengaturan tersebut biasanya dibuat di sebuah file bernama robot.txt).

Google juga akan memilah-milah website yang terindikasi melakukan aktifitas spam, ada beberapa ciri website yang akan dianggap spam oleh google, diataranya yang menyembunyikan teks dan memasang keyword dengan cara curang, website yang membuat konten secara otomatis (dilakukan robot) atau AGC (Auto Generate Content), Parked Domain, dan lain sebagainya.

Ketika Sebuah Permintaan Dilakukan Oleh User

Ketika seorang pengguna mengetikan permintaan/kata kunci di kotak pencarian google, query dipecah menjadi bahasa yang dimengerti oleh mesin. Modul query ini mengekstrak ribuan dan ribuan hasil dikembalikan dari database/index. Pada hasil yang diperoleh, modul pemeringkatan (rank/ranking) digunakan, berlaku rumus untuk menentukan peringkat halaman, peringkat lebih tinggi kemungkinan akan muncul di halaman pertama dan dibaris pertama, dan tentunya google akan menampilkan hasil yang paling relevan untuk para pengguna dalam pemeringkatan ini.

Bagaimana Google Melakukan Pemeringkatan

Google mempekerjakan algoritma berbasis link untuk menentukan peringkat dari hasil pencarian. Untuk ini, google akan melakukan pengecekan popularitas link (berapa banyak link yang dimiliki halaman tersebut, dalam arti ada berapa banyak link dari website lain yang mengarah ke halaman web tersebut), reputasi link yang mengarah pun diperhitungkan, apakah link yang mengarah ke halaman website tersebut datang dari website yang memilik popularitas atau ranking yang tinggi juga atau tidak, jika tinggi akan lebih baik efek nya bagi halaman website tersebut, karena bisa menjadi pertimbangan google untuk meningkatkan peringkat halaman web tersebut, oleh karena itulah banyak orang berlomba-lomba memperbanyak backlink dari website berkualitas menuju website mereka. Selain itu google juga menilai apakah link tersebut relevan dengan subjek dari halaman web tersebut dan berbagai faktor lain yang pada akhirnya menentukan pemeringkatan di hasil pencarian. Google menyebut mereka memiliki lebih dari 200 faktor yang mempengaruhi ranking sebuah website. Google menyukai website yang fresh dan selalu di update, konten berkualitas seperti website jurnalweb.com ini, yang kontennya aman, dan lain sebagainya.

saat ini orang berlomba-lomba agar website nya bisa ditemukan di mesin pencari, jika anda seorang pemilik website dan rugu website anda akan di jaring oleh software spider nya google, anda bisa memasukan halaman website anda ke mesin pencari google melalui google webmaster, permudah google dengan membuat sitemap yang berisi link, judul dan tanggal pembuatan halaman, lalu masukan ke repositori google melalui google webmaster.


Sumber : http://www.diskusiwebhosting.com/archive/thread-15984.html

Aspek legal Web Scrapping

Data scraping biasanya mengumpulkan data dari screen outputs atau mengekstrak data dari kode HyperText Markup Language (“HTML”) yang paling sering ditampilkan oleh sebagian besar websites (Lindenberg). Sehingga aplikasi tidak mengambil dari selain dari yang disediakan/dihasilkan oleh interface website yang di-scrape. Algoritma akan menganalisis analisis konten halaman situs (Bakaev & Avdeenko, 2014). Web scraping yang diterapkan pada penelitian ini hanya berhubungan dengan informasi yang berhubungan dengan metadata atau informasi terkait bibliography dari suatu artikel ilmiah. Sehingga apabila link lokasi pdf file yang ter-scrap merupakan open access link, maka user dapat men-download pdf artikel tersebut. Namun, apabila link tersebut bersifat close source, tentu pihak web host akan mem-block access hanya kepada yang memiliki otoritasnya, misalnya dengan memasukkan id dan pasword. Sehingga aspek legal dari aplikasi yang dibahas pada artikel ini tidak melanggar pihak manapun. Selain itu, penerapan pada artikel ini adalah pada portal-portal yang menyediakan layanan gratis, seperti: 1) Portal Garuda, 2) ISJD, dan 3) Google Scholar. Selain itu, scrapers pada artikel ini bersifat “mutual benefit” yang dapat membantu “scraped websites” (Hirschey, 2014) mendesiminasikan artikel ilmiah mereka, karena tujuan utama dari situs artikel ilmiah adalah menjadikan koleksi mereka diakses oleh sebanyak mungkin golongan yang membutuhkannya. Selanjutnya, pihak ketiga (scrapper) boleh beroperasi deep-links dengan membuat suatu page dengan cara tertentu sehingga pengguna website ditampilkan dengan informasi yang muncul seperti yang dimiliki penaut, dimana sang linker membenamkan suatu hyperlink di kodenya untuk membawa user ke konten data yang asli dari pemilik situs (Jennings & Yates, 2009).

Sumber : https://arxiv.org/ftp/arxiv/papers/1410/1410.5777.pdf  

Mendaftarkan situs ke search engine

Salah satu nilai lebih dari suatu website adalah terdaftar pada search engine populer sehingga mudah ditemukan dan tentu saja akan mendatangkan traffic yang lebih besar. Cara untuk terdaftar pada sebuah search engine sebenarnya cukup mudah meskipun Anda tidak dapat menyulap situs Anda untuk masuk ke halaman pertama index pencarian.
Hal – hal yang Harus dipenuhi
Untuk dapat masuk dalam daftar pencarian search engine, website Anda harus memenuhi beberapa persyaratan berikut :
  • Website Anda harus mengandung unsur text
    Search engine membaca file non-binary pada website Anda. Text – text yang terdapat di dalamnya akan disimpan dalam database search engine tersebut sehingga akan muncul pada pencarian dengan kata kunci yang relevan dengan isinya. Sangat tidak disarankan membuat suatu website dalam full flash karena teknologi search engine saat ini tidak dapat membaca file flash
  • Lengkapi header di setiap halaman
    Header yang terdiri dari title, meta description, dan meta keyword harus diisi dengan kata – kata yang relevan dengan isi website. Hal ini semakin memudahkan search engine untuk menyimpan isi halaman website Anda dalam databasenya.
  • Buat semua halaman dengan lengkap
    Sebelum Anda mulai mendaftarkan website Anda pada search engine, silahkan buat seluruh halaman dengan lengkap. Jangan sampai ada deadlink. Biasanya search engine tidak banyak mereferensikan hasil pencariannya pada website yang masih terdapat banyak deadlink.
  • Sebaiknya membuat sitemap
    Untuk mempermudah search engine menemukan halaman – halaman pada website Anda, buatlah sitemap yang berisi link ke seluruh halaman dalam website tersebut.
  • Tambahkan tag alt pada link image
    Tag alt pada image yang berkait (memiliki link) akan memudahkan search engine untuk mengcrawl halaman yang dituju oleh link tersebut.
Mendaftar di Google
Google memiliki banyak fasilitas untuk mendaftarkan website dan memasukkannya ke dalam index pencariannya. Untuk mendaftarkan suatu website di Google dapat memilih salah satu cara yang terdapat di halaman : http://www.google.com/intl/en/submit_content.html
Biasanya untuk website baru, Anda disarankan untuk mendaftarkannya melalui http://www.google.com/addurl/?continue=/addurl
Mendaftar di Yahoo
Untuk mendaftarkan situs Anda di Yahoo, dapat dilakukan melalui : http://search.yahoo.com/info/submit.html
INGAT! Tidak ada jaminan
Perlu diingat bahwa tidak ada jaminan website Anda akan masuk ke index pencarian Google, Yahoo, maupun search engine lain. Masing – masing search engine memiliki mekanisme seleksi, crawl, dan indexing yang berbeda – beda.
Cara termudah untuk dapat masuk pada index pencarian adalah melalui link. Tambahkan link ke website Anda dari website lain yang halaman – halamannya telah masuk ke index pencarian.
Sumber : http://www.rumahweb.com/tutorial/mendaftarkan-situs-ke-search-engine.html