Kebangkitan kecerdasan buatan (AI) sebagian besar disebabkan oleh kemajuan dalam pengenalan pola karena pembelajaran yang mendalam,

suatu bentuk pembelajaran mesin yang tidak memerlukan hard-coding eksplisit. 

Arsitektur jaringan saraf yang dalam agak diilhami oleh otak biologis dan ilmu saraf.

Seperti otak biologis, cara kerja dalam mengapa jaringan yang dalam bekerja sebagian besar tidak dapat dijelaskan, dan tidak ada teori pemersatu yang tunggal. 

Baru-baru ini para peneliti di Massachusetts Institute of Technology (MIT) mengungkapkan wawasan baru tentang bagaimana jaringan pembelajaran yang dalam bekerja untuk membantu lebih lanjut mengungkap kotak hitam pembelajaran mesin AI.

Trio riset MIT dari Tomaso Poggio, Andrzej Banburski, dan Quianli Liao di Center for Brains, Minds, and Machines mengembangkan teori baru tentang mengapa jaringan yang dalam bekerja dan menerbitkan studi mereka yang diterbitkan pada 9 Juni 2020 di PNAS (Prosiding dari Akademi Ilmu Pengetahuan Nasional Amerika Serikat).

Para Peneliti MIT (kiri ke kanan) Qianli Liao, Tomaso Poggio, and Andrzej Banburski. Credits:Image: Kris Brewer

Para peneliti memfokuskan studi mereka pada pendekatan oleh jaringan yang mendalam dari kelas-kelas tertentu dari fungsi multivariat yang menghindari kutukan dimensi – fenomena di mana ada ketergantungan eksponensial pada jumlah parameter untuk akurasi pada dimensi.

Sering dalam pembelajaran mesin yang diterapkan, data sangat dimensional. Contoh data dimensi tinggi termasuk pengenalan wajah, riwayat pembelian pelanggan, catatan kesehatan pasien, dan analisis pasar keuangan.

Kedalaman dalam jaringan yang dalam mengacu pada jumlah lapisan komputasi – semakin banyak lapisan jaringan komputasi, semakin dalam jaringan. 

Untuk merumuskan teori mereka, tim memeriksa kekuatan perkiraan pembelajaran mendalam, dinamika optimasi, dan kinerja out-of-sampel.

Dalam studi tersebut, para peneliti membandingkan jaringan dalam dan dangkal di mana keduanya menggunakan set prosedur yang identik seperti pooling, convolution, kombinasi linear, fungsi tetap nonlinear dari satu variabel, dan produk titik. 

Mengapa jaringan yang dalam memiliki kekuatan perkiraan yang besar?

Dan cenderung untuk mencapai hasil yang lebih baik daripada jaringan yang dangkal mengingat keduanya adalah penduga universal?

metode pembelajaran dari sebagai bukti kemajuan teknologi dan dampaknya bagi dunia pendidikan

Para ilmuwan mengamati bahwa dengan jaringan saraf yang dalam secara konvolusional dengan lokalitas hierarkis, biaya eksponensial ini menghilang dan menjadi lebih linier lagi. 

Kemudian mereka menunjukkan bahwa dimensi dapat dihindari untuk jaringan yang dalam dari tipe konvolusional untuk jenis fungsi komposisi tertentu.

 Implikasinya adalah bahwa untuk masalah dengan lokalitas hierarkis, seperti klasifikasi gambar, jaringan yang dalam secara eksponensial lebih kuat daripada jaringan yang dangkal.

“Dalam teori aproksimasi, baik jaringan dangkal maupun dalam diketahui mendekati setiap fungsi kontinu dengan biaya eksponensial,” catat para peneliti.

 “Namun, kami membuktikan bahwa untuk jenis fungsi komposisi tertentu, jaringan yang dalam dari tipe convolutional (bahkan tanpa pembagian bobot) dapat menghindari kutukan dimensi.”

Tim kemudian mulai menjelaskan mengapa jaringan yang dalam, yang cenderung terlalu parameter, berkinerja baik pada data yang tidak sampel. 

Para peneliti menunjukkan bahwa untuk masalah klasifikasi, diberikan jaringan standar dalam, dilatih dengan algoritma gradient descent,

itu adalah arah dalam ruang parameter yang penting, bukan norma atau ukuran bobot.

“Dalam mengkarakterisasi minimalisasi kerugian eksponensial empiris, kami mempertimbangkan aliran gradien dari arah berat daripada bobot itu sendiri,

karena fungsi yang relevan yang mendasari klasifikasi sesuai dengan normalisasi jaringan,” tulis rekan penulis itu. 

“Dinamika bobot yang dinormalisasi ternyata setara dengan yang ada pada masalah terbatas meminimalkan kerugian yang tunduk pada batasan norma unit. 

Secara khusus, dinamika penurunan gradien tipikal memiliki titik kritis yang sama dengan masalah yang dibatasi. ”

Implikasinya adalah bahwa dinamika gradient descent pada jaringan dalam setara dengan yang memiliki batasan eksplisit pada norma dan ukuran parameter – gradient descent menyatu dengan solusi max-margin. 

Tim menemukan kemiripan yang dikenal dengan model linier di mana mesin vektor bertemu dengan solusi pseudoinverse yang bertujuan untuk meminimalkan jumlah solusi.

Akibatnya, tim berpendapat bahwa tindakan melatih jaringan yang dalam berfungsi untuk memberikan regularisasi dan kontrol norma secara implisit. 

Para ilmuwan menghubungkan kemampuan jaringan dalam untuk menggeneralisasi, tanpa kontrol kapasitas eksplisit dari istilah regularisasi atau kendala pada norma bobot, 

dengan perhitungan matematis yang menunjukkan vektor satuan (dihitung dari solusi gradient descent) tetap sama, apakah kendala diberlakukan selama gradient descent. 

Dengan kata lain, jaringan yang dalam memilih solusi norma minimum,

maka aliran gradien dari jaringan yang dalam dengan kerugian tipe eksponensial secara lokal meminimalkan kesalahan yang diharapkan.

“Kami berpikir bahwa hasil kami sangat menarik karena mereka mewakili penjelasan potensial untuk salah satu teka-teki terbesar yang telah muncul dari bidang pembelajaran mendalam,

yaitu, keefektifan yang tidak masuk akal dari jaringan mendalam konvolusional dalam sejumlah masalah sensorik,” tulis para peneliti.

Melalui kombinasi interdisipliner dari matematika terapan, statistik, teknik, ilmu kognitif, dan ilmu komputer, peneliti MIT mengembangkan teori tentang mengapa pembelajaran

yang mendalam bekerja yang memungkinkan pengembangan teknik pembelajaran mesin baru dan mempercepat terobosan kecerdasan buatan di masa depan.

 

baca juga : Dilema Pendidikan Tanah Air

LEAVE A REPLY

Please enter your comment!
Please enter your name here