Jutaan gambar surat kabar bersejarah mendapatkan perawatan pembelajaran mesin di Library of Congress

Jutaan gambar surat kabar bersejarah mendapatkan perawatan pembelajaran mesin di Library of Congress

Jutaan gambar surat kabar bersejarah mendapatkan perawatan pembelajaran mesin di Library of Congress

 

Jutaan gambar surat kabar bersejarah mendapatkan perawatan pembelajaran mesin di Library of Congress
Jutaan gambar surat kabar bersejarah mendapatkan perawatan pembelajaran mesin di Library of Congress

Sejarawan tertarik pada cara peristiwa dan orang-orang dicatat di masa lalu yang dulu harus memilah-milah katalog kartu untuk kertas-kertas lama, kemudian pemindaian microfiche, kemudian daftar digital – tetapi kemajuan modern dapat mengindeksnya ke setiap kata dan foto. Upaya baru dari Perpustakaan Kongres telah mendigitalkan dan mengatur foto dan ilustrasi dari berabad-abad berita menggunakan pembelajaran mesin yang canggih.

Dipimpin oleh Ben Lee, seorang peneliti dari University of Washingtonmenempati posisi Perpustakaan “Innovator in Residence” , Newspaper Navigator mengumpulkan dan memunculkan data dari gambar dari sekitar 16 juta halaman surat kabar sepanjang sejarah Amerika.

Lee dan rekan-rekannya terinspirasi oleh pekerjaan yang telah dilakukan di Chronicling America, upaya digitalisasi berkelanjutan untuk surat kabar lama dan bahan cetak lainnya. Sementara pekerjaan itu menggunakan pengenalan karakter optik untuk memindai isi semua kertas, ada juga proyek crowdsourced di mana orang mengidentifikasi dan menguraikan gambar untuk analisis lebih lanjut. Relawan menggambar kotak-kotak di sekitar gambar yang berkaitan dengan Perang Dunia I, kemudian menyalin teks dan mengategorikan gambar.

Upaya terbatas ini membuat tim berpikir.

“Saya menyukainya karena menekankan sifat visual dari halaman – melihat keragaman visual dari konten yang keluar dari proyek, saya hanya berpikir itu sangat keren, dan saya bertanya-tanya bagaimana rasanya untuk mencatat konten seperti ini dari semua atas Amerika, “kata Lee kepada TechCrunch.

Dia juga menyadari bahwa apa yang telah dibuat oleh para sukarelawan sebenarnya adalah serangkaian data pelatihan yang ideal untuk sistem pembelajaran mesin. “Pertanyaannya adalah, bisakah kita menggunakan benda ini untuk membuat model deteksi objek untuk melewati setiap surat kabar, untuk membuka peti harta karun?”

Jawabannya, dengan senang hati, adalah ya. Dengan menggunakan karya awal manusia yang digerakkan untuk menguraikan gambar dan keterangan sebagai data pelatihan, mereka membangun agen AI yang dapat melakukannya sendiri. Setelah mengutak-atik dan mengoptimalkan yang biasa, mereka melepaskannya pada basis data pemindaian surat kabar Amerika penuh Chronicling America.

“Ini berjalan selama 19 hari tanpa henti – jelas pekerjaan komputasi terbesar yang pernah saya jalankan,” kata Lee. Tetapi hasilnya luar biasa: jutaan gambar mencakup tiga abad (1789-1963) dan diorganisasikan dengan metadata yang ditarik dari keterangan mereka sendiri. Tim menjelaskan pekerjaan mereka dalam makalah yang dapat Anda baca di sini .

Dengan asumsi teks sama sekali akurat, gambar-gambar ini – hingga saat ini hanya dapat diakses dengan menelusuri tanggal arsip berdasarkan tanggal dan mendokumentasikan berdasarkan dokumen – dapat dicari berdasarkan isinya, seperti halnya corpus lainnya.

Mencari foto-foto presiden pada tahun 1870? Tidak perlu menelusuri lusinan makalah untuk mencari potensi klik

dan memeriksa ulang konten dalam keterangan – cukup cari “Newspaper Navigator” untuk presiden 1870. ” Atau jika Anda ingin kartun editorial dari era Perang Dunia II, Anda bisa mendapatkan semua ilustrasi dari rentang tanggal. (Tim telah zip up foto ke dalam paket tahunan dan merencanakan koleksi lainnya.)

Berikut adalah beberapa contoh halaman surat kabar dengan penentuan sistem pembelajaran mesin yang dilapisinya (peringatan: banyak iklan topi dan rasisme):

newsnav-contoh (2)newsnav-contoh (1)
newsnav-contoh (5)Lihat 5 Foto
Itu menyenangkan selama beberapa menit untuk peramban biasa, tetapi kuncinya adalah apa yang dibuka untuk

peneliti – dan kumpulan dokumen lainnya. Tim ini melempar kemacetan data hari ini untuk merayakan rilis set data dan alat, di mana mereka berharap untuk menemukan dan mengaktifkan aplikasi baru.

“Semoga ini akan menjadi cara yang bagus untuk menyatukan orang-orang untuk memikirkan cara-cara kreatif set data dapat digunakan,” kata Lee. “Gagasan yang saya sangat senangi dari perspektif pembelajaran mesin sedang mencoba membangun antarmuka pengguna di mana orang dapat membangun kumpulan data mereka sendiri. Kartun politik atau iklan fesyen, biarkan pengguna menentukan minat mereka dan latih penggolong berdasarkan itu. ”

Contoh apa yang mungkin Anda dapatkan jika Anda meminta peta dari era Perang Saudara.

Dengan kata lain, agen AI dari Newspaper Navigator dapat menjadi induk untuk seluruh induk yang lebih spesifik yang dapat digunakan untuk memindai dan mendigitalkan koleksi lainnya. Itu sebenarnya rencana di dalam Library of Congress, di mana tim koleksi digital telah senang dengan kemungkinan yang dibawa oleh Newspaper Navigator, dan pembelajaran mesin secara umum.

“Salah satu hal yang kami minati adalah bagaimana komputasi dapat memperluas cara kami memungkinkan

pencarian dan penemuan,” kata Kate Zwaard. “Karena kami memiliki OCR, Anda dapat menemukan hal-hal yang membutuhkan waktu berbulan-bulan atau berminggu-minggu untuk menemukannya. Koleksi buku Perpustakaan memiliki semua piring dan ilustrasi yang indah ini. Tetapi jika Anda ingin tahu seperti, gambar apa yang ada di Madonna dan anak, beberapa dikategorikan, tetapi yang lain ada di dalam buku yang tidak di katalog. ”

Itu bisa berubah dengan tergesa-gesa dengan gambar-dan-keterangan AI secara sistematis meneliti mereka.

Sumber:

https://poptype.co/tuponur/whatsapp-prohibits-users-who-use-gbwhatsapp

Close
Menu