Kekurangan Data Sedang

Kekurangan Data Sedang


Siapa yang akan menyusun kumpulan data yang kurang menonjol?

Biografi Kepresidenan src

Samuel Fallows adalah seorang uskup di Gereja Episkopal Reformed. Ia lahir pada tahun 1835 dan memimpin denominasi untuk empat tugas antara tahun 1877 dan kematiannya pada tahun 1922. Di antara banyak karya populer, ia menyusun sendiri Kamus Lengkap Sinonim dan Antonim. Berbeda dengan yang lebih terkenal Harta Karun Rogetitu dapat diunduh secara bebas—tetapi ada tangkapan.

Hari ini kita membahas kerja keras dan pelajaran dari upaya saya untuk menggunakan buku ini sebagai data dalam kursus algoritma-dan-struktur-data saya semester lalu.

kata kerja muncul dalam bentuk yang menangkap dengan baik semua indra yang saya alami:


KEY: Travail.
SYN: Labor, toil, heaviness, affliction.
ANT: Ease, rest, lightness, joy.

Ini datang dengan markup Project Gutenberg, yang didigitalkan dari sumber seperti gambar PDF Arsip AS. Digitizer mengakui kesalahan OCR dalam kata pengantarnya di sana. Masif tidak diakui kesalahan, bagaimanapun, adalah prompt utama untuk posting ini. [See Update at end.]

Sebelum menyajikan kesalahan besar dan pelajarannya untuk kurasi data semacam ini, izinkan saya mengatakan lebih banyak tentang kamus dan karya-karya Fallows lainnya.

Fallows sebagai Penulis

Kamus ini telah mencapai beberapa edisi dan masih dijual di Amazon dan Barnes and Noble. Unduhan dan PDF optik adalah dari edisi ketiga 1898, yang kata pengantar satu halamannya menarik perhatian saya untuk bagian berikut:

Untuk penyelesaian Teka-Teki Silang, perhatian khusus juga diberikan pada daftar Americanisms dan Briticisms dan tabel Homonim yang sangat berharga (kata-kata yang dieja sama tetapi berbeda dalam penggunaannya)—fitur asli yang mudah dikenali pentingnya.

Saya tumbuh dengan kisah teka-teki silang yang berpusat di New York yang populer di tahun 1920-an. Sejarah di Wikipedia menyebutkan bahwa istilah tersebut berasal dari tahun 1862 tetapi hanya menunjukkan sedikit perhatian pada mereka sampai tahun 1913. Disebutkan bahwa teka-teki tahun 1913 oleh Arthur Wynne di Dunia New York surat kabar “sering disebut sebagai teka-teki silang pertama.” Kemudian Wikipedia mengatakan, “Pada 1920-an, fenomena teka-teki silang mulai menarik perhatian.” Tapi tunggu dulu: ternyata teka-teki silang telah cukup menarik perhatian pada tahun 1898 untuk Fallows untuk memanggil mereka sebagai titik penjualan utama dari ringkasannya.

Berikut adalah beberapa buku sekuler lain oleh Fallows yang menunjukkan tingkat keterlibatan populernya yang tinggi:

Dia juga memberikan kontribusi pengenalan ke banyak buku, termasuk “Jangan Kita Lupakan”: Chicago’s Awful Theatre Horror (1903) dan risalah 1919 yang paling sederhana berjudul Eugenics.

Sangat menarik untuk membaca buku San Francisco, yang berspekulasi oleh juru tulis Proyek Gutenberg “diterbitkan dengan sangat tergesa-gesa setelah gempa bumi.” Berikut adalah bagian dari bab 9, “Melalui Jalur Kesengsaraan”:

Di Salinas, sekitar hari gelap, kondektur kembali, menggelengkan kepalanya; sebuah kereta barang di depan di Pajaro telah sepenuhnya terkubur oleh gunungan tanah yang terlempar akibat gempa.

Orang-orang itu mengatakan mungkin seminggu sebelum kereta apa pun lewat.

Tiga atau empat dari kami bergegas ke kota mencari mobil. Salah satu penumpang di kereta itu adalah Ny. Robert Louis Stevenson, dan berita itu dirahasiakan darinya sampai penundaan ini.

Beberapa baris lebih jauh ke bawah: “Seorang maniak raksasa telah mematahkan belenggunya dan menyelamatkan salah satu penjaga dari gedung. Dia hanya memiliki satu saat yang waras; cukup lama untuk menjadi pahlawan. Kemudian dia melarikan diri sambil melolong ke bukit-bukit.”

Struktur Data Jangan

Judul bagian ini tidak salah ketik: buku Fallows lainnya berjudul Diskriminasi: Seorang Pendamping untuk “Jangan” (1885, 1891). Kutipan yang dipilih oleh forgetbooks.com dapat disajikan dalam pamflet misi perusahaan perangkat lunak modern:

Membedakan antara kemampuan dan kapasitas. Kapasitas adalah kekuatan menerima dan mempertahankan pengetahuan dengan mudah. Kemampuan adalah kekuatan menerapkan pengetahuan untuk tujuan praktis. Kapasitas menyiratkan kekuatan untuk hamil, kemampuan kekuatan untuk mengeksekusi desain. Kapasitas ditunjukkan dalam kecepatan ketakutan; kemampuan dalam sesuatu yang benar-benar dilakukan.

Salah satu aplikasi yang saya buat untuk kursus Struktur Data saya adalah untuk menulis ulang kata-kata panjang dalam teks-teks yang dipilih dengan sinonim yang lebih pendek, mungkin untuk efek lucu, menggunakan kamus Fallows. Ini mencontohkan daftar dan array dan set dan peta dari berbagai ukuran. utama peta untuk membangun adalah dari kata kunci ke daftar sinonim yang terkait. Seseorang dapat menggunakan a mengatur benda yang memiliki kunci dan sinonim bidang, yang saya sajikan lebih fleksibel dalam memungkinkan cara lain untuk menentukan kunci. Beberapa kata dalam kamus Fallows memiliki entri terpisah untuk part of speech, misalnya (antonim dan beberapa kata terpotong):


KEY: Array \v.\.
SYN: Vest, deck, equip, decorate, rank, adorn, dress, accoutre, …
=
KEY: Array \n.\, Arrangement, order, disposition, sight, …, parade.

Daripada menyulap berbagai jenis peta, untuk menggunakan atau tidak menggunakan info kata benda/kata kerja/kata sifat, saya katakan lebih baik menyimpan data bersama-sama. Ini jatuh dengan khotbah tentang jebakan struktur data klasik “Array Paralel” dan kesalahan pengindeksan satu per satu. Saya merancang dan memberikan tugas terpisah di mana set yang diurutkan dengan iterator memberikan kinerja 3-4x lebih baik daripada pencarian berulang dari peta.

Tapi saya tidak pernah memberikan tugas yang awalnya dibuat. Di antara beberapa alasan, saya dikejutkan oleh kesalahan “Parallel Arrays” di file teks Project Gutenberg.

Menyeramkan

Kamus juga memiliki referensi silang entri ditandai oleh


KEY: Bellow, [See BAWL].

Maksud saya dalam kasus seperti itu adalah agar kode siswa mencari sinonim dari kata yang dirujuk, di sini KUNCI: Menangis. SYN: Berteriak, bersuara, halloo, mengaum, berteriak. Dan—kalau-kalau kamus baru saja— KUNCI: Menangis, [See BELLOW]—hati-hati untuk masuk ke loop tak terbatas.

Saya memang menetapkan tugas mendeteksi ketika dua kata muncul di daftar sinonim satu sama lain. Saya bermaksud memperluasnya ke referensi silang, sehingga menangis dan berteriak akan dihitung sebagai “pasangan timbal balik.” Tetapi sebelum saya sampai di sana, saya melihat contoh seperti berikut—terutama menjelang akhir file:


KEY: Unruffled, [See DISCOVER].
=
KEY: Unruly.
SYN: Ungovernable, unmanageable, refractory, [See TRANQUIL].
=
KEY: Unsafe, [See REFRACTORY].
=
KEY: Unseasonable, [See SAFE].

Ini satu per satu kesalahan meluas di atas dan di bawah. Ada beberapa pulau yang benar, tetapi berbatasan dengan keanehan:


KEY: Unhandy.
SYN: Awkward, clumsy, uncouth, [See AWKWARD].
=
KEY: unhappiness.
SYN: Misery, wretchedness, distress, woe, [See AWKWARD].
=
KEY: Unhappy.
SYN: Miserable, wretched, distressed, …, dismal, [See BUSS].
=
KEY: Unhealthy, [See BEHALF].

Itu CIUMAN adalah kesalahan OCR untuk KEBAHAGIAANdimaksudkan untuk pergi dengan Ketidakbahagiaandan KEPENTINGAN adalah kesalahan OCR untuk KESEHATAN—yang disejajarkan dengan benar lagi. Di tempat lain ketidaksejajaran tampak lebih aneh dan lebih besar. Tapi tak satu pun dari mereka ada di sumber cetak mana pun. Aku bertanya:

Bagaimana kesalahan semacam ini bisa terjadi?

Jelas transcriber atau pembantu jatuh bertabrakan dengan Array Paralel. Satu kemungkinan diisyaratkan oleh situs proyek Gutenberg yang memiliki file CSV yang menggunakan kolom terpisah untuk KEY, SYN, dan ANT, dan memiliki catatan diselingi dengan data ke arah atas. Menyisipkan catatan dalam satu kolom akan menghilangkan perataan di bawahnya. Tapi saya belum menemukan kesalahan ini di file-file itu.

Upaya Kurasi Data

Saya meluangkan waktu untuk memperbaiki semua kesalahan OCR di KUNCI: bidang dalam pembaruan saya yang diposting di halaman web kursus saya: Fallows1898fx.txt. Saya mulai memperbaiki referensi silang, tetapi menyerah ketika saya melihat contoh sporadis lebih awal dari S dalam file dan hubungannya dengan kesalahan OCR. Beberapa yang terakhir lebih sulit untuk dijelaskan. File Gutenberg memiliki


KEY: Catalogue \n.\, [See BAWL].

Sumber PDF/cetak memiliki [See RECORD]. ‘R‘ bisa menghasilkan’B‘, tetapi kemungkinan untuk mendapatkan PENUSUK dari EKOR membuat saya menduga kesalahan yang berbeda. Mungkin sebelumnya [See BAWL] dari entri untuk Berteriak disalin di sini. Salinan seperti di atas CANGGUNG contoh terjadi di tempat lain dengan lebih banyak ruang intervensi. Kemungkinan ketiga adalah bahwa MENANGIS bisa pergi dengan KUNCI: Caterwaultetapi Fallows tidak memiliki kata itu.

Kesalahan satu per satu dihindari dalam teks lengkap Arsip AS sendiri, tetapi memiliki masalah lain. Markupnya campur aduk. Format teks yang sebenarnya dapat dipulihkan di banyak tempat tetapi tidak mudah di tempat lain. Kesalahan ketik tipe OCR sama sekali tidak ditandai.

Beberapa kesalahan dilakukan oleh Fallows sendiri. Misalnya, dia lupa memasukkan “SDI.” ke dalam entrinya sendiri untuk bentuk kata benda dari Himpunan diberikan di atas. Haruskah ini diperbaiki? Untuk tujuan saya menginginkan dataset yang bersih, saya ingin begitu. Tidak masalah bahwa saya dapat menambahkan banyak entri—kamusnya jauh dari “lengkap” bahkan pada tahun 1898. Pemahamannya adalah bahwa kami beroperasi dengan artefak sejarah ini sebagaimana adanya, mungkin setelah memperbaiki hal-hal yang dimaksudkan oleh penulis dengan jelas.

Pembersihan data telah menjadi bidang ilmu komputer dan data tersendiri. Maksud saya bukan untuk mengeksplorasi teori atau kasus penggunaannya. Saya dapat mencurahkan seluruh rangkaian posting untuk masalah dengan data catur saya dan banyak penyimpangan dalam file permainan catur yang dikirimkan kepada saya yang harus saya perbaiki. Maksud saya—dengan semua sumber data yang kurang menonjol tetapi berpotensi bermanfaat ini—bukan bagaimana tetapi siapa:

Siapa yang akan melakukan koordinasi dan pelaksanaan pembersihan semua data jarak menengah ini?

Apakah upaya besar dan terpadu seperti Proyek Gutenberg memiliki sumber daya manusia tampaknya dipertanyakan. Perpustakaan Buku Daring Universitas Pennsylvania memiliki catatan status peringatan tentang tautan Gutenberg:

Tidak ada tautan yang stabil: Ini adalah entri buku yang tidak dikuratori dari rak buku kami yang diperluas, dapat dibaca online sekarang tetapi tanpa tautan stabil di sini. Anda tidak boleh mem-bookmark halaman ini, tetapi Anda dapat meminta kami menambahkan buku ini ke koleksi kurasi kami, yang memiliki tautan stabil.

Versi PDF yang dipindai stabil. Jika catatan itu didorong oleh kesalahan dalam transkripsi tekstual — yah, saya pikir Saya bisa menyelesaikan perbaikan yang saya mulai jika satu minggu ekstra gratis secara ajaib dimasukkan ke dalam kalender saya. Jika ada di antara Anda yang dapat melakukannya setiap hari, baik mulai dari versi saya atau bekerja lagi, saya akan berterima kasih.

Buka Masalah

Berapa banyak yang dibutuhkan dunia untuk menggunakan set data tingkat menengah seperti itu? Seberapa pentingkah membersihkannya, dan dari mana upaya itu berasal? Atau akankah semua data ini terus dibiarkan kosong?

Selain buku-buku dan panduan agama di atas, Fallows menulis buku-buku patriotik, termasuk The American Manual dan Patriot’s Handbook (1889). Namun di antara semua topiknya, mungkin yang paling diingat akhir pekan Empat Juli ini—saat kita membahas pinjaman mahasiswa dan peran pendidikan tinggi yang lebih besar—adalah bahwa tujuan besarnya di negara bagian asalnya adalah “pendidikan perguruan tinggi, bebas biaya kuliah, untuk setiap anak laki-laki atau perempuan Wisconsin yang menginginkannya.” Dia mengorganisir program pendidikan jarak jauh pascasarjana pertama di AS, dan juga menciptakan “Bishop’s Beer” epsilon-alkohol sebelum Larangan.

Pembaruan 1 Agustus 2022: Versi Gutenberg telah diperbarui dengan milik saya dan beberapa koreksi lainnya, tetapi poster tersebut mengakui secara pribadi bahwa masih banyak lagi yang harus diperbaiki — dan memulai kembali dari awal dengan gambar ini mungkin yang terbaik.

[some little fixes]

Forensik Komputer