Dataset Domain Indonesia

Mengumpulkan domain di Internet bisa digunakan untuk banyak hal, salah satunya adalah untuk penelitian atau riset. Indonesia sendiri mempunyai berbagai tipe country code top level domain (ccTLD), dari yang khusus untuk sekolah, pemerintahan, organisasi, hingga pondok pesantren. Berbagai domain tersebut memang bisa digunakan untuk umum, entah dari segi aspek situsnya maupun pengguna dalam atau luar negeri. Namun demikian, beberapa domain memerlukan syarat khusus untuk mendaftarkannya. Sebagai contoh, domain .sch.id dan .co.id memerlukan dokumen verifikasi tambahan, sebelum dapat dibeli dan dipergunakan. Mengenai informasi lebih lengkap tentang persyaratan apa saja yang diberlakukan pada domain Indonesia dapat dilihat langsung pada situs pengelola domain Indonesia, yaitu, PANDI (Pengelola Nama Domain Internet Indonesia).

Pengerucutan domain tersebut bisa dimanfaatkan untuk mengumpulkan data spesifik dari tujuan TLD atau ccTLD domain itu tersendiri, kumpulan domain pemerintah bisa digunakan sebagai sumber data riset tentang keamanan situs-situs mereka. Bahkan, secara generik, dengan menganalisis keseluruhan domain .id bisa dimanfaatkan untuk mencari gambaran tentang kondisi teknis situs-situs dengan domain Indonesia. Sampai saat ini, 22/11/23, terdapat 816.424 domain .id [1]. Pada laporan tahunan 2022 PANDI terdapat informasi bahwa mereka memiliki sistem crawl untuk mengecek berapa banyak situs aktif dengan domain .id, akan tetapi, saya belum menemukan di mana informasi tersebut disosialisasikan. Sedangkan rincian dari berapa banyak jumlah per domain bisa di lihat pada tabel berikut.

Month Year Total .ac.id .biz.id .co.id .desa.id .go.id .id .mil.id .my.id .net.id .or.id .ponpes.id .sch.id .web.id
Oktober 2023 806,830 6,648 54,208 100,004 17,845 3,392 219,413 216 325,880 840 12,373 859 45,342 19,810

Contoh lainnya tentang pemanfaatan crawling tersebut sudah pernah dilakukan oleh Scott Helme[2], dalam proyek crawler.ninja[3] ia menganalisa kondisi keamanan pada 1M situs teratas. Data domain yang digunakan adalah Tranco, sebuah dataset yang memang dibuat dengan orientasi riset[4]. Ada juga contoh lain, khususnya pada Uni Eropa, proyek NoLeaks yang memakai sumber data yang sama melakukan analisa tentang status privasi pada situs-situs dengan domain EU di setiap negaranya masing-masing[5]. Dan juga banyak contoh kasus lainnya.

Suatu hari saya juga sempat mencoba mencari tahu tentang sumber yang bisa dipakai, khususnya dalam ruang lingkup Indonesia, sayangnya, saya tidak dapat menemukan sumber tersebut. Oleh karena itu, saya coba kelola dan juga melakukan sedikit pemrosesan data dari sumber-sumber terkait seperti Tranco dan yang lainnya.

Olahan kumpulan data tersebut diproses dari berbagai sumber. Saat ini terdapat 3 sumber data, Tranco, ipsniper, dan Domains Project.

Tranco

Metodologi pengumpulan data Tranco, berasal dari sumber Chrome User Experience Report (CrUX), Cloudflare Radar, Farsight, Majestic, dan Cisco Umbrella. Lalu, mereka mengaplikasikan sistem Dowdall untuk mengkalkulasi peringkat untuk setiap domain. Sampai saat ini, Tranco telah dipakai sebagai publikasi penelitian sebanyak 550 kali[6].

ipsniper

ipsniper, tidak banyak yang bisa dibahas mengenai metode pengumpulan dari situs ini, ada satu informasi menyebutkan pengelolaan situs memang dilakukan secara anonim, sehingga informasi berkaitan dengan komunitas maupun kontak situs terkait tidak tersedia[7].

Domain Project

Sumber ini menggunakan metode crawling dan pengecekan DNS untuk mendapatkan domain baru[8]. Bohdan Turkynevych, selaku maintainer dari proyek ini juga mengembangkan sendiri aplikasi untuk menunjang tujuan dari metode tersebut.

Kumpulan Domain Indonesia

Kumpulan domain dengan TLD dan ccTLD Indonesia terkandung dalam 3 sumber tersebut. Sehingga, data tersebut bisa diolah untuk mendapatkan kumpulan dataset yang hanya mengandung domain Indonesia. Caranya bisa dilakukan dengan mengunduh sumber data mereka, lalu, melakukan pengolahan data, sebagai contoh, bisa dilakukan dengan aplikasi, grep atau awk.

Tanpa berlama-lama lagi, informasi dan tempat dari tata cara pengolahan dan sumber yang sudah difilter bisa lansung mengunjungi repository yang saya kelola. Yaitu, Kumpulan Dataset Domain Indonesia.


  1. https://pandi.id/laporan-statistik ↩︎

  2. https://scotthelme.co.uk/top-1-million-analysis-june-2022/ ↩︎

  3. https://crawler.ninja/ ↩︎

  4. https://tranco-list.eu/ ↩︎

  5. https://noleaks.eu/reports.html ↩︎

  6. https://scholar.google.be/scholar?cites=1499698348405075976%2C10234769677796230547 ↩︎

  7. https://github.com/tb0hdan/domains/issues/13#issuecomment-1253449308 ↩︎

  8. https://github.com/tb0hdan/domains#domains-project-bot ↩︎