Selasa, 05 Mei 2009

Membongkar Rahasia PageRank



Sebuah algoritma kecil menentukan keberhasilan atau kegagalan website di dalam rumus PageRank Google.Mari kita mulai dengan beberapa logika berikut ini. Internet sangat besar, sebaliknya website sangat kecil. Tidak heran, apabila sebuah website sangat sulit untuk menonjolkan diri dan bersaing dengan milyaran website serupa untuk menampakkan diri­nya kepada seluruh pengakses Internet.

Pengguna hanya bisa melihat suatu website apabila ia menjalankan pencarian di Google dan website tersebut berada paling atas dalam daftar hits. Hanya saja, apabila ada ratusan website serupa di Internet, yang mana yang akan tampil paling atas atau paling bawah dalam daftar hits? Jawabannya dituangkan ke dalam sebuah rumus algoritma PageRank. Seperti kita ketahui, PageRank adalah sebuah algoritma yang telah dipatenkan yang berfungsi menentukan website mana yang lebih penting atau populer. PageRank merupakan salah satu feature utama mesin pencari Google dan diciptakan oleh pendirinya, Larry Page dan Sergey Brin.

Bagi Anda yang mengenal, memahami, dan menggunakan PageRank, dapat mendongkrak websitenya ke atas daftar hits. Namun, yang menyalah gunakannya akan dihukum. Namun bagaimana cara kerja PageRank dan kapan sebuah website berada di atas dalam daftar hits?

Cara kerja rumus dan formula PageRank

Di balik PageRank ada pemikiran yang sederhana sekaligus jenius:
1. Untuk setiap website ada sejumlah tertentu website lain yang menempatkan sebuah hyperlink ke website yang bersangkutan.
2. Setiap website memiliki sebuah PageRank.
3. Link dari website B ke website A dihitung sebagai satu suara dari B untuk A. Seperti dalam pemungutan suara.
4. Selain itu, PageRank website B memberi bobot suara untuk A. Semakin tinggi PageRank website B, semakin baik.
5. Faktor-faktor lainnya, berapa banyak link terdapat di website B. Semakin sedikit jumlahnya, semakin baik untuk PageRank website A.
6. Jumlah semua PageRank sama dengan jumlah semua dokumen di Internet. Jadi, PageRank adalah pembobotan sebuah dokumen di Internet secara keseluruhan yang tercatat.

PageRank dihitung untuk setiap website, bukan untuk seluruh tawaran website. Oleh karena itu, sebuah artikel tertentu di webserver bisa jadi mendapat PageRank lebih tinggi daripada websitenya sendiri.

Sebagai rumus seluruh algoritma PageRank tampak sebagai berikut:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(TN))
Berikut penjelasan rumus diatas: PageRank website A adalah jumlah PageRank website T1 hingga Tn, masing-masing dibagi dengan jumlah link pada website yang bersangkutan. Selain itu, ada faktor peredam, sebuah elemen sangat penting yang selanjutnya masih akan berperan.

Image

KALKULASI PAGERANK - Empat website saling menghubungi melalui link. Tergantung jumlah link yang mengantar ke sebuah website, maka di dapat nilai PageRank tertentu (PR).

Prinsip PageRank dapat diperjelas. Anggaplah seluruh web hanya terdiri atas empat website A, B, C, dan D. Dalam contoh masing-masing memiliki nilai PageRank awal “1”. Jumlahnya sama dengan jumlah website. Dalam contoh pertama website B, C, dan D masing-masing memiliki sebuah link ke website A dan tidak ada link lainnya. Apabila faktor peredam diabaikan, hasilnya adalah rumus:
PR(A) = 1/1 + 1/1 + 1/1
PageRank website A adalah 3. Contoh yang lebih rumit (lihat halaman 199): Website A memiliki link ke website B dan C. B hanya memiliki sebuah link ke A. C memiliki link ke A, B, dan D. D hanya memiliki link ke B. Rumus untuk A akan menjadi:
PR(A) = 1/1 + 1/3
Link dari B bernilai 1, sementara dari C hanya 1/3 dengan jumlah links 3. Hasilnya adalah 1,33.
Untuk B:
PR(B) = 1/2 + 1/3 + 1/1
Dibulatkan hasilnya adalah 1,83.
Untuk C:
PR(C) = ½
Hasilnya 0,5.
Untuk D:
PR(D) = 1/3
Hasilnya dibulatkan 0,33.

Jumlah PageRank website A, B, C dan D seharusnya sama dengan jumlah website :
1,33 + 1,83 + 0,5 + 0,33 = 3,99

Kekurangan 0,1 disebabkan oleh pembulatan. Dalam kalkulasi ini masih ada yang kurang. PageRank setiap website tidak disertakan. Sekali lagi kita ambil contoh website B. Apabila kalkulasi disesuaikan dengan PageRank yang didapat dari langkah pertama:
PR(B) = 1/2 + 1/3 + 1/1

Didapat term berikut:
PR(B) = 1,33/2 + 0,5/3 + 0,33/1

Hasilnya dibulatkan adalah 1,62. Tentu saja kalkulasi baru PageRank website B mengubah PageRank website A, C, dan D. Nilai baru D kembali mengubah nilai B. Oleh karena itu, Google mendekati PageRank secara iteratif. Google mengambil hasil sebuah putaran untuk kalkulasi dalam langkah iterasi berikutnya. Menurut keterangan Page dan Brin, cukup 100 kali putaran iterasi untuk mencapai secara mendekati nilai PageRank dari milyaran website yang terdapat di Internet.
Faktor peredam: Menyertakan pengguna dalam kalkulasi

Berdasarkan asumsi Google, PageRank merepresentasikan kemungkinan seorang peselancar sampai ke sebuah website de­ngan mengklik sebuah link. Berhubung peselancar tidak mungkin meng-klik tanpa henti, maka ke dalam rumus di masukkan faktor peredam.

Bisa dikatakan, faktor peredam ini mensimulasikan peselancar kehilangan minat mengikuti link. Peredaman ini dikalkulasikan ke dalam jumlah voting me­lalui link ke website. Dalam penjelasan algo­ritmanya, Sergey Brin dan Larry Page mensyaratkan faktor peredaman 0,85. Bisa diasumsikan, dalam realita Google nilai tersebut memang berkisar pada 0,85.

Berbeda dengan contoh di atas, PageRank sebenarnya ditetapkan antara 0 dan 1 sebagai nilai prakiraan. Dari situ didapat pecahan desimal kecil yang menghasilkan PageRank sebuah website. Sebuah website dengan nilai 0,01 memiliki kemungkinan sebesar 1% mendapat kunjungan seorang pengguna ketika yang bersangkutan mengklik sebuah link secara kebetulan.

Namun, berikut ini masih teka-teki. Apabila PageRank dinyatakan sebagai angka antara 0 dan 1, mengapa pada toolbar Google (http://toolbar.google.com) nilainya ditampilkan antara 1 dan 10? Jawabannya, Google mengkonversinya. Bagaimana caranya, tidak jelas. Namun banyak pakar berpendapat, konversinya tidak linear, melainkan logaritmis. Artinya, lompatan PageRank dari 1 ke 2 pada toolbar jauh lebih mudah daripada dari 9 ke nilai terbaik 10.

Filter: PageRank pembantu-pembantu kecil

Berdasarkan rumus PageRank Google te­lah menyisir Internet dengan sukses besar. Namun dengan itu juga timbul masalah, para pengelola website dengan cepat me­ngetahui cara kerjanya dan berupaya merekayasa agar websitenya terdongkrak ke atas daftar hits.

Akibatnya, Google mulai menangkal spammer semacam itu dengan metoda yang selalu baru. Oleh karena itu, saat ini PageRank hanyalah salah satu dari banyak faktor yang mempengaruhi kedudukan website dalam daftar hits Google.
Walau demikian, PageRank sering diperlakukan seperti sebuah valuta. ”Apabila Anda memberi saya dua link dari PageRank 4, saya memberi Anda sebuah link dari website dengan PageRank 5“. Namun, tindakan bertukar link ini tidak ada gunanya.

Misalnya, bertukar link antara sebuah website sepakbola dengan sebuah website otomotif tidak ada gunanya bagi pembaca dan juga tidak ada dengungnya di Google. Soalnya, Google memberi nilai lebih tinggi untuk link yang relevan, daripada yang tidak ada kaitannya sama sekali. Jadi, apabila Anda mendapat sebuah e-mail de­ngan tawaran barter link, sebaiknya periksa dulu, apakah website nya tepat. Apabila relevan, tentu ada gunanya.
Kembali ke algoritma Google, PageRank hanyalah puncak gunung es. Di bawah tampilan Google tersembunyi banyak filter dan metoda penilaian untuk website dan hasil pencarian (Daftar hits).

Image

TRIK PROFESSIONAL - Dalam blognya, Matt Cutts memberikan beragam tips seputar optimalisasi mesin pencari untuk website. Sebagai kepala tim Google Webspam, ia menentukan filter dan aturan baru.

SEO (Search Engine Optimization)

Prinsip optimalisasi mesin pencari adalah “Berikan kode yang benar dan isi yang bagus serta sedapat mungkin yang unik”. Jadi, mengingatnya berpeluang mengangkat websitenya ke urutan teratas.

Kode yang benar terkait dua karakter kode HTML sebuah website. Di satu sisi, harus benar secara sintaks. Di sisi lain perlu menggunakan elemen HTML yang ada. Penting bagi Google terutama tags ,

, serta tag title

hingga

. Di dalam terdapat penjelasan singkat mengenai dokumen dengan

alinea diatur dengan rapi, judul-judul menentukan struktur artikel.

Tampaknya, penting juga untuk menggunakan judul

sekali saja, tetapi judul lainnya seperti

atau

lebih sering. Sebuah syarat lainnya untuk hasil pencarian yang lebih baik adalah kesabar­an. Sedikit demi sedikit pengelola website lain dihubungkan dengan sebuah tawaran dan dengan demikian mendongkrak Page­Rank serta popularitas website.

Tuning: Membangun link untuk website

Selain melalui Google, sebenarnya banyak jalan untuk mempublikasikan website. Salah satunya adalah menyisipkan alamat atau link website Anda di dalam forum atau blog. Namun pengelola blog sering tidak senang mengenai ini. Link semacam itu baru berguna, apabila menawarkan info relevan bagi pembaca forum atau blog yang bersangkutan.

Selain itu, masih banyak cara lain. Dalam komentar blog biasanya link otomatis dilengkapi dengan parameter ”rel=nofollow”. Artinya, Google tidak mengikuti link ini dan tidak menilainya sebagai voting untuk PageRank. Pihak yang bertanggung jawab atas keberadaan parameter ini lagi-lagi spammer. Program botnya memenuhi blog dan forum de­ngan teks tidak berguna dan banyak link untuk mendongkrak website mereka dalam mesin pencari.

Link-Tracking: Voting melalui klik

Raksasa mesin pencari Google akan tidak berguna apabila ia tidak menilai perilaku pengguna. Soalnya berdasarkan urutan klik ia dapat menyimpulkan hasil pencarian mana yang lebih disukai pengguna dan menyesuaikan rankingnya.
Dalam penjelasan perlindungan data Google, bagian yang bersangkutan berbunyi “Google dapat menempatkan links dalam sebuah format, yang memberi kami kemungkinan untuk mengetahui, apakah links ini digunakan.“ Demikian tercantum di www.google.com/privacypolicy.html.

Keuntungan pengukuran ini bagi Google adalah hampir tidak ada yang dapat mempengaruhi. Satu-satunya cara untuk mendapatkan banyak klik adalah memberi judul dan keterangan website yang bagus.
Sebagai judul biasanya Google memilih isi -tags. Judul sedapat mungkin harus menarik, sehingga pengguna tertarik untuk mengklik.

Pada teks yang ditampilkan di bawah link oleh Google, HTML-metatags yang lama diabaikan ini menunjukkan kelebihannya dalam -element sebuah website . Dalam

sebaiknya programmer mencantumkan keterangan singkat mengenai isi pada xyz. Seperti subheadline sebuah artikel di suratkabar, ia bisa berisi semua fakta penting sebuah website. Dengan demikian, akan menarik perhatian pengguna untuk mengkliknya.

Apabila sebuah artikel tidak memiliki metatags, Google memilih sebuah bagian teks yang menurutnya tepat untuk ditempatkan di bawah link.

Black Hat SEO: Menipu Google

Setiap program dan setiap sistem memiliki kelemahan, termasuk Google. Sejak mesin pencari mengirim pengguna ke website, banyak yang berupaya mengubah hasil pencarian. Dengan demikian, ada kompetisi terus menerus antara spammer dan pengelola mesin pencari. Yang satu ingin memanipulasi untuk mendapatkan keuntungan, yang lain menginginkan hasil yang bersih dan bebas spam.

Para manipulator, termasuk Black Hat SEO memanfaatkan celah aktual untuk tujuannya. Metoda yang digunakan saat ini adalah konten spam dan link spam. Keduanya menarik pengguna ke sebuah website yang ditampilkan di daftar atas oleh Google, karena pada umumnya iklan-iklan di website ini yang memiliki isi, pe­ngunjung mengkliknya dan spammer mendapatkan uang.

Konten spam ada dalam banyak versi. Yang paling sederhana adalah mengisi sebuah teks dengan banyak istilah yang digunakan untuk mencari. Namun, cara ini sekarang tidak seefektif dulu, ketika mesin pencari sekadar menghitung berapa banyak istilah yang bersangkutan dalam sebuah website.

Google dan mesin pencari lainnya sudah mengatasi “Keyword-Stuffing” (http://www.google.com/support/webmasters/bin/answer.py?answer=66358). Caranya adalah membandingkan jumlah istilah-istilah dalam teks satu dengan yang lainnya (keyword density). Dari persentase tertentu, sebuah teks dapat dianggap spam.

Sebuah upaya penipuan lainnya yang telah diatasi Google adalah teks tersembunyi. Di website, spammer menuliskan teks berwarna putih di atas latar belakang putih. Dengan HTML atau CSS tidak masalah, karena pembaca website tidak tahu apa-apa. Sebaliknya, dengan mesin pencari pasti menemukan ratusan atau ribuan istilah tertentu dari teks tersebut.

Namun teks tersembunyi sudah tidak manjur lagi. Matt Cutts, juru bicara tidak resmi Google untuk hal-hal SEO, dalam blognya menulis, tidak ada gunanya menuliskan teks kelabu terang pada latar belakang putih (www.mattcutts.com/blog/seo-mistakes-nearly-hidden-text/).

Metode yang masih sering digunakan adalah “Scraping” atau penjiplakan isi website lain untuk mengisi website sendiri. Cara ini sering digunakan spammer dalam kaitan dengan layanan Google Adsense, untuk mendapatkan uang melalui iklan. Namun tim anti-spam Google juga sudah berupaya mengatasi cara ini (www.mattcutts.com/blog/step-into-my-shoes/). Scraping tentu mengesalkan website yang berisi teks aslinya. Soalnya website Scrape bisa saja ditempatkan lebih atas daripada website asli.

Link Spamming: Sampah dalam blog

Pengelola blog dan forum harus menghadapi link spamming. Karena link farming sendiri tidak lagi berfungsi dengan baik, kini spammer menggunakan cara lain. Mereka membanjiri blog, forum dan website dengan daftar link.
Keuntungan bagi spammer, website yang disalahgunakan tidak mencurigakan. Dan kalau Google melakukan suatu tindakan terhadap website yang penuh sampah, bagi spammer tidak masalah. Masih banyak website lain yang dapat digunakan untuk menampung sampah mereka.

Satu-satunya penangkal adalah atribut “nofollow” untuk anchor-tags yang diberikan Google. Link semacam itu tidak diikuti Google dan tidak tercantum dalam indeks. Dalam program blog WordPress, sejak awal atribut “nofollow” diaktifkan. Meskipun tidak mencegah spam, setidaknya membuat spam tersebut tidak efektif.

Bagi spammer tidak masalah. Mereka terus mengisi komentar blog dengan harapan menemukan blog yang tidak menggunakan “nofollow”. Hanya dengan layanan anti spam seperti Akismet pengelola website dapat mengatasi link spam.
Spammer lainnya membuat blog sendiri. Dengan harapan memasukkan tawarannya ke dalam Google. Pada dasarnya ini tidak berbeda dengan link-farming bia­sa. Membuat website yang hanya berisi teks tanpa arti dan hyperlink. Ini pun sudah lama diperangi oleh Google.

Cloaking: Favorit baru spammer

Cloaking berasal dari kata cloack (mantel), adalah sebuah teknik mesin pencari lainnya yang digunakan spammer. Tampil­an asli website disembunyikan. Konten untuk mesin pencari berbeda dengan untuk pembaca. Hal ini dimungkinkan, karena googlebots yang digunakan untuk menyisir website selalu dapat dikenali. Demi keamanan cloaker juga dapat menyamakan alamat IPnya.

Apabila website Cloaking mengenali googlebots, ia menampilkan konten khusus untuk mesin pencari. Misalnya ratusan kalimat yang menekankan sebuah atau beberapa istilah dalam berbagai variasi. Namun, apabila seorang pembaca membuka website ini, ia menemukan isi yang sama sekali berbeda, dirancang khusus untuk umum dan tak ada kaitannya dengan yang dicari.

Berdasarkan pola serupa adalah “site-redirect”. Melalui sebuah metatag atau JavaScript, setelah website di-load pengunjung, maka akan dibelokkan ke website lain. Berhubung Google tidak menginterpretasikan JavaScript, googlebot tetap di website pertama dan menemukan konten khusus.

Masyarakat umum mengetahui teknik ini ketika Februari 2005 perusahan otomotif ternama BMW keluar dari indeks Google (www.mattcuts.com/blog/ramping-up-on-international-webspam/). Perusahaan mobil ini telah menggunakan JavaScript-redirect. BMW menampilkan kepada googlebot sebuah website teks berisi kata-kata kunci, tetapi menggiring pengguna ke sebuah galeri foto mobil-mobil.

Konten Duplikat: Spam yang tidak diinginkan

Seorang webmaster mungkin berniat baik, namun ketika masuk ke dalam daftar Google, tindakannya bisa saja salah. Salah satu sebabnya adalah konten ganda, terutama ditemukan pada website yang lengkap. Konten duplikat bisa terjadi dengan dua cara. Pertama, memang duplikat. Misalnya, apabila sebuah website tersedia untuk browser dan dalam versi cetak, serta di indeksasi oleh Google. Kedua, website ditemukan teks yang sama.

Kini Google tidak lagi melihatnya terlalu sempit. Dua hingga tiga versi artikel pada sebuah website “White-Hat“ tidak masalah, demikian tulis Matt Cutts dalam blognya (www.mattcuts.com/blog/duplicate-­content-question/). Sebuah cara lainnya adalah melalui URL. Apabila sebuah website dapat dicapai melalui beberapa nama domain, bisa menimbulkan masalah. Demikian pula dengan filepath berbeda yang memiliki arti yang sama.

Contoh, sebuah artikel dapat dicapai melalui “www.myside.xy/artikel.php?id=1” maupun “www.myside.xy/greatheading-1”. Bagi Google merupakan dua alamat berbeda, juga dua dokumen berbeda, tetapi de­ngan isi yang sama. Oleh karena itu, website diturunkan tingkatnya dalam indeks.

Masalah ini dapat diatasi dengan sebuah pembelokan. Apabila pengguna misalnya memasukkan filepath yang pertama, ia akan dibelokkan ke path file kedua. Pembelokan dilakukan oleh modul mod_rewrite pada server Apache. Kode yang dibutuhkan misalnya dicantumkan dalam file .htaccess yang harus berada di dalam root-directory website yang bersangkutan. Mekanisme pembelokan terdiri dari tiga baris kode:
RewriteEngine on
RewriteCond %{HTTP_HOST} !^www\.myside\.xy$
RewriteRule ^(.*)$ http://www.myside.xy/$1 [R=permanent]

Baris pertama mengaktifkan fungsi untuk mengubah URL. Setelah itu, RewriteCool memeriksa nama website yang bersangkutan. Apabila bukan www.myside.xy, baris ke 3 membelokkan semua permintaan ke www.myside.xy. Sebagai tipe pembelokan dipilih ”permanent”. Dengan demikian, Google dan mesin pencari lainnya dapat mengetahui alamat yang baru dan berlaku seterusnya.

Pembelokan ini memang merepotkan pengelola website. Selama ada spammer yang berupaya menduduki urutan atas dalam daftar hits, Google akan terus ber­upaya menangkalnya.

Sumber:n Google Webmaster Help Center:
www.google.com/support/webmasters/bin/answer.py?answer=35769
n Blog Matt Cutts:
www.mattcutts.com/blog
n Google Webmaster Central Blog:
http://googlewebmastercentral.blogspot.com/2007/12/answering-more-popular-picks-meta-tags.html
n Google Spam Report:
www.google.com/contact/ spamreport.html
n Wikipedia Spamdesxing
http://en.wikipedia.org/wiki/ Spamdexing
n Forum Berita Google:
www.webmasterworld.com/ forum30