Monday 20th May 2024
Durbar Marg, Kathmandu

Institut Allen untuk AI (AI2), divisi dalam Institut Allen nirlaba yang berfokus pada penelitian pembelajaran mesin, hari ini menerbitkan karyanya pada sistem AI, yang disebut Unified-IO, yang diklaim sebagai salah satu yang pertama melakukan “besar dan beragam ” serangkaian tugas AI. Unified-IO dapat memproses dan membuat gambar, teks, dan data terstruktur lainnya, suatu prestasi yang menurut tim peneliti di belakangnya adalah langkah menuju pembangunan sistem AI tujuan umum yang mampu dan terpadu.

“Kami tertarik untuk membangun tugas-agnostik [AI systems]yang dapat memungkinkan praktisi untuk berlatih [machine learning] model untuk tugas-tugas baru dengan sedikit atau tanpa pengetahuan tentang mesin yang mendasarinya,” Jaisen Lu, seorang ilmuwan riset di AI2 yang bekerja di Unified-IO, mengatakan kepada TechCrunch melalui email. “Arsitektur terpadu seperti itu meringankan kebutuhan akan parameter khusus tugas dan modifikasi sistem, dapat dilatih bersama untuk melakukan berbagai macam tugas dan dapat berbagi pengetahuan lintas tugas untuk meningkatkan kinerja.”

Upaya awal AI2 dalam membangun sistem AI terpadu menghasilkan GPV-1 dan GPV-2, dua sistem “bahasa penglihatan” tujuan umum yang mendukung beberapa beban kerja termasuk memberi teks pada gambar dan menjawab pertanyaan. Unified-IO harus kembali ke papan gambar, menurut Lu dan merancang model baru dari bawah ke atas.

Unified-IO memiliki karakteristik yang sama dengan GPT-3 OpenAI dalam arti bahwa ini adalah “Transformer”. Kembali ke tahun 2017, Transformer telah menjadi arsitektur pilihan untuk tugas penalaran kompleks, menunjukkan kemampuan untuk meringkas dokumen, menghasilkan musik, mengklasifikasikan objek dalam gambar, dan menganalisis urutan protein.

Seperti semua sistem AI, Unified-IO belajar melalui contoh, mencerna miliaran kata, gambar, dan lainnya dalam bentuk token. Token ini berfungsi untuk merepresentasikan data dengan cara yang dapat dipahami oleh Unified-IO.

Bersatu-IO

Unified-IO dapat menghasilkan gambar dengan deskripsi singkat. Kredit Gambar: Bersatu-IO

“Komunitas pemrosesan bahasa alami (NLP) telah sangat sukses dalam membangun kesatuan [AI systems] yang mendukung banyak tugas berbeda, karena banyak tugas NLP dapat direpresentasikan secara homogen — kata-kata sebagai masukan dan kata-kata sebagai keluaran. Tetapi sifat dan keragaman tugas visi komputer berarti bahwa model multitugas di masa lalu terbatas pada serangkaian tugas kecil, dan sebagian besar tugas yang menghasilkan keluaran bahasa (menjawab pertanyaan, memberi keterangan pada gambar, dll.),” Chris Clark , yang berkolaborasi dengan Lu di Unified-IO di AI2, memberi tahu TechCrunch melalui email. “Unified-IO menunjukkan bahwa dengan mengubah berbagai keluaran terstruktur yang beragam seperti gambar, topeng biner, kotak pembatas, kumpulan poin kunci, peta skala abu-abu, dan lainnya menjadi urutan token yang homogen, kita dapat memodelkan sejumlah tugas visi komputer klasik yang sangat mirip. untuk bagaimana kami membuat model tugas di NLP.”

Tidak seperti beberapa sistem, Unified-IO tidak dapat menganalisis atau membuat video dan audio — keterbatasan model “dari perspektif modalitas,” jelas Clark. Namun di antara tugas Unified-IO Bisa lengkap menghasilkan gambar, mendeteksi objek di dalam gambar, memperkirakan kedalaman, memparafrasakan dokumen, dan menyorot wilayah tertentu dalam foto.

“Ini berimplikasi besar pada visi komputer, karena mulai memperlakukan modalitas yang beragam seperti gambar, topeng, bahasa, dan kotak pembatas hanya sebagai urutan token — mirip dengan bahasa,” Clark menambahkan. “Selain itu, penyatuan pada skala ini sekarang dapat membuka pintu ke jalan baru dalam visi komputer seperti pra-pelatihan terpadu yang masif, transfer pengetahuan lintas tugas, pembelajaran beberapa langkah, dan banyak lagi.”

Matthew Guzdial, asisten profesor ilmu komputasi di University of Alberta yang tidak terlibat dalam penelitian AI2, enggan menyebut Unified-IO sebagai terobosan. Dia mencatat bahwa sistem ini sebanding dengan Gato DeepMind yang baru-baru ini dirinci, model tunggal yang dapat melakukan lebih dari 600 tugas mulai dari bermain game hingga mengendalikan robot.

“Perbedaan [between Unified-IO and Gato] jelas bahwa itu adalah serangkaian tugas yang berbeda, tetapi juga bahwa tugas-tugas ini sebagian besar jauh lebih bermanfaat. Maksud saya, ada kasus penggunaan saat ini yang jelas untuk hal-hal yang dapat dilakukan oleh jaringan Unified-IO ini, sedangkan Gato kebanyakan hanya bisa bermain game. Hal ini membuat Unified-IO atau beberapa model seperti itu lebih mungkin benar-benar memengaruhi kehidupan orang-orang dalam hal produk dan layanan potensial, ”kata Guzdial. “Satu-satunya kekhawatiran saya adalah meskipun demonya mencolok, tidak ada gagasan tentang seberapa baik kinerjanya dalam tugas-tugas ini dibandingkan dengan model yang dilatih pada tugas-tugas individual ini secara terpisah. Mengingat bagaimana model Gato yang berkinerja buruk dilatih pada tugas individu, saya berharap hal yang sama akan terjadi di sini.

Bersatu-IO

Unified-IO juga dapat mengelompokkan gambar, bahkan dengan pencahayaan yang menantang. Kredit Gambar: Bersatu-IO

Namun demikian, para peneliti AI2 menganggap Unified-IO sebagai fondasi yang kuat untuk pekerjaan di masa depan. Mereka berencana untuk meningkatkan efisiensi sistem sambil menambahkan dukungan untuk lebih banyak modalitas, seperti audio dan video, dan meningkatkannya untuk meningkatkan kinerja.

“Pekerjaan terbaru seperti Imagen dan DALL-E 2 telah menunjukkan bahwa dengan data pelatihan yang cukup, model… dapat dilatih untuk menghasilkan hasil yang sangat mengesankan. Namun, model ini hanya mendukung satu tugas,” kata Clark. “Unified-IO dapat memungkinkan kami untuk melatih model multitask skala besar. Hipotesis kami adalah meningkatkan data dan ukuran model secara luar biasa akan menghasilkan hasil yang jauh lebih baik.”

Back To Top