Bagi Pelaku SEO tentu sudah tidak asing dengan hal file robot txt. setiap webiste mempunyai file robot txt yang berguna untuk memberi tahu webmaster bagaimana caranya mencrawling website atau blog. dan umumnya file robots text google ini berupa tulisan file diretory yang berfungsi untuk mencekal atau memberitahu robot bot (spider bot) laman mana saja yang harus di crawling. hal yang mendasar untuk mengetahui file robot txt biasanya ditandai dengan tulisan allow dan disallow. buat yang sudah bereksperiment dengan hal ini tentu sangat mudah namun bagi sobat yang belum paham dengan file robots txt saya coba jelaskan menurut pengertian dan uji coba yang sudah saya lakukan.
Perintah Allow
Biasanya kalau kita membuka webmaster google misalnya tentu kalian tahu atau melihat hal ini. nah sebenarnya kode allow ini untuk apa? menurut beberapa web yang saya baca dan juga pedoman webmaster google kalau kata allow ini mengijinkan atau memperbolehkan robots bot untuk mengcrawling blog kita tanpa batas. penggunaan ini bisa kalian lihat di webmaster google dibagian navigasi URL yang Dicekal. Secara defult penggunaan robots txt ini berbeda-beda bisa kita lihat pada file robots txt bawaan blogspot dan wordpress tentu sudah berbeda juga.
Perintah Disallow
Kebalikan dari perintah allow, kalau allow memperbolehkan untuk dicrawling namun untuk disallow membatasi atau mencekal laman yang tidak ingin dikehendaki untuk dicrawling oleh robots bot. jadi kalau anda belum paham benar metodi secara defult biarkan apa adanya. sebab kalau kalia salah mengartikan atau salah membuat direktory robots txt diblogspot kalian mungkin tidak bisa dicrawling yang akibatnya blog anda akan merosot dari serp.
Untuk mempermudah pemahaman tentang metode robots txt saya coba ambil file robots txt yang defult dari blogspot. biasanya file robots txt terlihat seperti dibawah ini :User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://blog.kangmiftah.com/feeds/posts/default?orderby=UPDATED
Sekarang saya coba memperjelas tentang file robot txt diatas. untuk baris pertama
User-agent: Mediapartners-Google
Disallow:
hal ini memberitahukan robots bot agar tidak merayapinya. maksud yang sebenarnya tetang media partner adalah membatasi atau mencekal robots bot untuk tidak merayapi kode laman google adsense yang dipasang oleh publiser adsense. diteruskan dengan kata disallow yang berarti tidak diijinkan atau membatasi. hal yang perlu kalain ketahui jangan pernah merubah hal ini bagi pengguna blogspot, biarkan apa adanya.
User-agent: *Disallow: /search
Allow: /
Pada baris pertama adalah letak direktori file pada blogspot. sesaui defultnya yaitu mencekal robot bot untuk tidak merayapinya. untuk pengguna wordpress hal ini sudah jadi biasa. namun untuk pengguna blogspot tentu sudah dimudahkan lagi. Disallow:/seacrh merupakan perintah untuk mencekal robot txt untuk tidak mengcrawling pada laman pencarian dan yang terakhir adalah allow yang berarti mengizinkan selain file yang berada diatasnya.
Sitemap: http://blog.kangmiftah.com/feeds/posts/default?orderby=UPDATED
Yang terakhir adalah sitemap atau peta situs, gunanya untuk memberitahu robots txt supaya mengcrawling semua peta situs. hal inilah kenapa halaman atau laman cepat sekali diindex oleh google. karena robot bot sudah diberi signal dengan mudah yang berupa sitemap.
Sekarang sobat sudah paham tentang robots txt atau masih bingung apa yang aku sampaikan diatas. kalau masih kurang paham dengan apa yang sudah aku jelaskan sobat bisa berkomentar dibawah postingan ini, untuk metode cara agar membatasi robots txt yang lainnya saya akan bahas dipostinga berikutnya, yaitu cara membatasi crawling robots txt tentang archive blog dan juga laman yang selalu salah ketika dicrawling oleh spider bot. semoga artikel ini bermanfaat bagi sobat.
Yang terakhir adalah sitemap atau peta situs, gunanya untuk memberitahu robots txt supaya mengcrawling semua peta situs. hal inilah kenapa halaman atau laman cepat sekali diindex oleh google. karena robot bot sudah diberi signal dengan mudah yang berupa sitemap.
Sekarang sobat sudah paham tentang robots txt atau masih bingung apa yang aku sampaikan diatas. kalau masih kurang paham dengan apa yang sudah aku jelaskan sobat bisa berkomentar dibawah postingan ini, untuk metode cara agar membatasi robots txt yang lainnya saya akan bahas dipostinga berikutnya, yaitu cara membatasi crawling robots txt tentang archive blog dan juga laman yang selalu salah ketika dicrawling oleh spider bot. semoga artikel ini bermanfaat bagi sobat.