Dalam Penjara Algoritma: Menguak Masalah Besar Big Data

Judul-judul semacam ini: "Studi menunjukkan orang yang gemar membaca buku, mempunyai empati tinggi dan beretika lebih baik ketimbang mereka yang gemar menonton televisi" (@NGIndonesia, 2018). Di sini kegemaran membaca buku diposisikan sebagai prediktor terhadap empati tinggi dan etika.
Atau "Dalam studi komunikasi hewan, Monyet Capuchin betina, ~monyet dari subfamili Cebinae~ menunjukkan ekspresi wajah bebek, dalam fase sebelum kawin" (@idwiki, 2018). Nampaknya, ekspresi wajah bebek jadi penduga terhadap keinginan kawin manusia. Persis yang ditunjukkan monyet.
Juga, "Menurut studi, orang kaya tidurnya lebih nyenyak daripada orang miskin" (@jakarta.keras, 2024), memprediksi jumlah kepemilikan harta, sebagai penyebab nyenyaknya tidur. Entah seluruhnya sekedar gimmick dengan tujuan clickbait. Atau memang serius hendak mengungkap hasil studi secara populer. Namun seluruh pengungkapan, memperlihatkan korelasi antar fenomena yang sebelumnya tak nampak.
Gejala pengungkapan layaknya studi, tak mustahil lantaran berkembangnya pemanfaatan big data. Juga data science, ilmu pengetahuan soal data, yang penyelidikannya makin matang.
Kedua-duanya menyebabkan pemanfaatan aspek big data meningkat luas. Mulai di bidang komunikasi pemasaran, prediksi perilaku konsumen, perancangan produk, penetapan kandidat calon pemimpin oleh partai politik, dan penentuan pola pengobatan bagi pasien di fasilitas kesehatan.
Kemudian penetapan jenis kebijakan bagi masyarakat dalam pengelolaan kota, metoda menjelaskan konsep pada siswa di lembaga pendidikan, hingga pada hal yang skalanya mikro. Hal mikro itu seperti: penentuan judul berita, maupun pemilihan warna tombol aplikasi agar menarik perhatian khalayak.
Pertanyaannnya, dalam perkiraan mendatang akankah lebih banyak masalah kehidupan yang terpecahkan big data? Melissa Hamilton ~Guru besar pada Law & Criminal Justice, University of Surrey~ dan Pamela Ugwudike ~Guru Besar pada Criminology, University of Southampton~, 2023, ~ dalam artikelnya: "A 'Black Box' AI System has been Influencing Criminal Justice Decisions for Over Two Decades - it's Time to Open it Up" mencoba menguraikan pandangannya.
Pandangan kontekstual di bidang penegakan hukum, pada berbagai negara maju. Keduanya menyebut, sistem peradilan di seluruh dunia menggunakan artificial intelligence (AI) dalam mengembangkan perangkat penilaian.
Perangkat berbasis AI itu, menggunakan big data untuk menilai tingkat kesalahan maupun hukuman bagi orang yang dituduh melakukan tindak pidana. Operasionalnya mengandalkan algoritma, dengan seluruh diprosesnya menggunakan machine learning. Darinya dapat dihasilkan prediksi hukuman bagi tertuduh. Banyak efisiensi dan tercegahnya bias penilaian, yang dapat diraih lewat digunakannya perangkat berbasis AI di atas. Karenanya banyak pendukungnya.
Dukungan pemanfaatan algoritma dalam memenuhi keperluan macam di atas, akibat: sistem algoritma yang dipercaya lebih obyektif. Penilaian berlangsung dengan metode yang terstandardisasi. Ini mampu mengurangi bias oleh terbawanya perasaan manusia saat menilai dan mengambil keputusan. Dalam konteks penegakan hukum, sistem yang sesuai rencana bermanfaat melindungi masyarakat.
Namun walau telah digunakan dalam waktu lama, tak berarti sistem semacam di atas tanpa kelemahan. Ini tercermin saat pelaksanaan evaluasi independen, yang dalam realitasnya sering dibatasi aksesnya terhadap data maupun informasi penting lainnya.
Seluruhnya menimbulkan pertanyaan tentang akuntabilitas maupun transparansi. Terdapat potensi bias, yang terselip dalam big data. Dalam kasus pembuatan perangkat berbasis AI itu muncul fenomena black box AI system.
Gejalanya dapat berupa kesalahan tuduhan, pada etnis minoritas tertentu. Ini dapat terjadi lantaran, sistem algoritma yang sejak awal penyusunannya menggunakan data yang bias. Sumber datanya dapat berasal dari lembaga penegakan hukum, seperti kepolisian.
Realitas di atas dapat diilustrasikan menggunakan analogi sekantong kelereng, yang diambil dengan mata tertutup. Besarnya peluang kelereng warna biru terambil makin besar, jika warna itu jadi pengisi utama kantong.
Demikian pula etnis kulit hitam jadi pelaku kejahatan. Peluangnya akan membesar di tempat yang banyak warga kulit hitamnya. Skor yang ditunjukkan perangkat, hampir selalu merujuk warga kulit hitam sebagai pelaku kejahatan.
Namun ini tak berarti warna kulit sebagai penyebab dilakukannya kejahatan. Melainkan sumber datanya, "memberi peluang" warga berkulit hitam sebagai pelaku kejahatan. Big data tak mampu menunjukkan: warna kulit bukan jadi penyebab tindakan kejahatan.
Kekhawatiran Hamilton dan Ugwudike di atas, terkonfirmasi lewat pernyataan senada. Karen Hao, 2019, lewat tulisannya: "AI is Sending People to Jail-and Getting it Wrong" memperkuat kekhawatiran itu. Tulisannya dibuka dengan: digunakannya data yang bersumber dari peristiwa sebelumnya, untuk melatih perangkat penilaian dapat mendorong tersalinnya kesalahan di masa lalu.
Ini termasuk ketika lembaga kepolisian menggunakan algoritma prediktif, saat mengalokasikan aparatnya untuk mencegah kejahatan. Juga manakala lembaga penegak hukum lainnya menggunakan sistem pengenalan wajah dalam membantu identifikasi tersangka.
Seluruhnya berpotensi mengantar pada keputusan yang salah. Data penyusun mesin, berpotensi terselip bias data profil penjahat sebelumnya. Juga kemiripan wajah yang terbaca oleh face recognition, dengan orang yang telah melakukan kejahatan. Kesamaan pada data lama, digunakan sebagai prediksi tindakan di masa depan.
Terkuaknya prediksi tindakan di masa depan itu, saat Hao mendapati: sistem penilaian peluang mengulang kejahatan, disusun dari perincian profil terdakwa sebelumnya. Hasilnya berupa skor residivisme.
Seluruhnya kemudian digunakan oleh penegak hukum untuk menetapkan keputusan hukuman maupun jenis layanan rehabilitasi yang bakal diterima terdakwa. Skor yang rendah memberi kabar baik bagi terdakwa. Sebab hukuman ringan atau masa rehabilitasi yang singkat baginya. Namun jika skor residivismenya tinggi, hukuman beratlah yang menanti Sang Terdakwa.
Dalam realitasnya sistem yang dikembangkan berbasis AI itu, bersifat sentral. Skor yang dihasilkan mempengaruhi keputusan pengadilan, manajemen penjara, petugas pembebasan bersyarat, maupun pengawas masa percobaan.
Peta yang terbaca, menentukan perlakuan bagi terdakwa. Seluruhnya berarti, kesamaan diperlakukan sebagai prediktor. Memang menyebabkan proses penentuan tindakan hukum berjalan singkat dan efisien. Terbebas dari bias penilaian manusia. Namun persoalan besarnya: sadarkah data yang digunakan menyusun perangkat. terselipi bias data. Ini berarti, dengan makin besarnya jumlah data, makin menumpuk peluang biasnya.
Selain bias data yang yang terselip saat menyusun sistem yang memanfaatkan big data, Jianqing Fan, Fang Han dan Han Liu, 2014, dalam "Challenges of Big Data Analysis", mengkhawatirkan big data dalam hal ukuran sampel yang sangat besar dan dimensionalitasnya tinggi.
Seluruhnya mendorong pada persoalan komputasi dan statistik yang pelik. Ini termasuk skalabilitas dan kemacetan penyimpanan, akumulasi gangguan, korelasi palsu, endogenitas insidental, dan kesalahan pengukuran, papar ketiganya.
Dalam hal korelasi palsu, relevan dengan yang ditulis Scott Wilson, 2024, pada "Better Than Random: The Outer Limits of Big Data Analytics". Wilson menyebut, terdapat banyak korelasi dapat diungkap big data. Ini mungkin termasuk korelasi-korelasi popular, berpola hasil studi sebagaimana contoh pembuka di atas. Namun demikian, tak seluruhnya dapat digunakan untuk melakukan prediksi. Juga memiliki makna tertentu, yang signifikan.
Dengan cara lain, uraian Wilson dapat dinyatakan: korelasi yang ditunjukkan sebagai hasil pengungkapan lewat big data, merupakan demonstrasi kerja statistik untuk menemukan pola. Namun pola itu tak serta merta petunjuk bagi relasi sebab akibat.
Orang kaya yang disebut tidurnya lebih nyenyak dari orang yang miskin, tak serta merta ketika menemukan orang yang miskin dapat diprediksi tidurnya kurang nyeyak. Kemiskinan bukan penyebab dari kurang nyenyaknya tidur. Demikian pula bentuk mulut bebek, maupun kegemaran membaca, tak jadi prediktor yang memicu munculnya perilaku yang disebut dalam korelasinya. Inilah yang disebut korelasi palsu big data.
Karenanya, tanpa memahami proses data dikumpulkan ~ini meliputi: operasionalisasi konsep yang teoritis, muatan variabel yang konsisten, ruang dan waktu pengumpulan data yang kontekstual~ alih-alih dapat memenjarakan orang tak bersalah, big data justru memenjarakan diri sendiri ke dalam realitas korelasi palsu.
Korelasi yang terbentuk oleh bertemunya kuantitas signifikan dimensi tertentu, dengan dimensi lain yang juga signifikan. Signifikansinya membuat seolah dimensinya berhubungan. Namun nyatanya bukan kasualitas.
Ini artinya, ketika big data menunjukkan kuantitas dimensi pemakan nasi signifikan dengan dimensi pengidap kanker otak, sama sekali tak berarti: makan nasi menyebabkan kanker otak. Di sini nampak, perangkat canggih yang mutakhir bisa jadi sumber dipenjarakannya pemahaman. Pencegahnya, jika masih punya kemauan terus belajar.
(miq/miq)