Microsoft AI Menggambar Objek dari Deskripsi Teks

Menurut sebuah artikel akademis yang diterbitkan oleh para peneliti Microsoft, perangkat lunak kecerdasan buatan baru yang dikembangkan di Microsoft mampu "menarik" apa saja dari deskripsi tekstual. Misalnya, jika pengguna meminta komputer untuk "menggambar burung kuning dengan sayap hitam dan paruh kecil", hasilnya akan menjadi yang Anda lihat dalam gambar.

Burung-burung ini mungkin tidak ada di dunia nyata, mereka hanya merupakan aspek dari imajinasi komputer kita tentang burung.

“Jika Anda membuka pencarian burung Bing, Anda akan melihat foto burung. Tapi di sini, foto dibuat oleh komputer, piksel demi piksel, dari awal, ”komentar pemimpin penelitian Microsoft Xiaodong He kepada publikasi resmi Microsoft. "Burung-burung ini mungkin tidak ada di dunia nyata, mereka hanya merupakan aspek dari imajinasi burung komputer kita, " tambahnya.

Dia lebih jauh merinci bahwa hasil saat ini yang dibawa oleh komputer tidak sempurna, tetapi mereka bisa mendekati. Idenya adalah bahwa perangkat lunak cerdas tersebut pada akhirnya dapat berfungsi sebagai asisten gambar untuk seniman atau bahkan desainer interior.

microsoft

Di masa depan, profesional semacam itu mungkin mengambil gambar lingkungan rumah dan kemudian meminta komputer: "Tambahkan kursi kayu berlapis abu-abu bergaya modernis di sudut kiri." Komputer tidak hanya dapat membantu mengatur lingkungan tetapi juga membuat furnitur dan elemen lainnya.

Proses

Penelitian awal oleh tim yang mengerjakan proyek ini di Microsoft dimulai dengan bereksperimen dengan CaptionBot, sistem kecerdasan buatan yang dapat menulis keterangan deskriptif untuk foto apa pun. Kemudian mereka menciptakan perangkat lunak AI lain yang dapat menjawab pertanyaan orang tentang foto, SeenAI, yang dapat sangat berguna bagi para tunanetra.

Akhirnya, kelompok ini dapat mengembangkan teknologi yang mampu menghasilkan gambar-gambar ini dari deskripsi tekstual. Bagian pertama disebut Generative Adversarial Network (GAN), yang dirancang untuk menghasilkan gambar, dan bagian kedua dikenal sebagai "Diskriminator, " yang menilai kualitas foto.

Perhatian adalah konsep manusia; kami menggunakan matematika untuk menjadikan konsep komputasi sebagai perhatian

Sistem ini dilatih dengan pasangan gambar dengan teks sehingga perangkat lunak dapat memahami kata mana yang cocok dengan gambar mana. Kemudian, perlu untuk membuat model matematika untuk fokus pada penciptaan yang dikembangkan oleh sistem. “Perhatian adalah konsep manusia; kami menggunakan matematika untuk membuat konsep komputasi menjadi perhatian, ”kata He.

Peneliti percaya bahwa pada akhirnya akan dimungkinkan untuk membuat film animasi dari skrip yang ditulis menggunakan sistem seperti ini, tetapi kami tidak memiliki prediksi kapan hal semacam ini dapat diterapkan secara komersial ke produk Microsoft apa pun.

Microsoft AI "menggambar" objek dari deskripsi teks melalui TecMundo