Subscribe feed

Дужацца са спамам можна з карысцю… для архіваў

18 жніўня 2008

Навукоўцы прыстасавалі праграму CAPTCHA, якая адрознівае кампутараў і людзей у Сеткі, для перакладу папяровых тэкстаў, створаных у "докомпьютерную" эпоху, у лічбавы фармат. Створаная амерыканскімі адмыслоўцамі праграма reCAPTCHA пры дапамозе карыстачоў інтэрнэту дазваляе расшыфроўваць тэксты з больш за 99 адсоткавай дакладнасцю. Як паведамляюць стваральнікі reCAPTCA у сваім артыкуле, апублікаванай у часопісе Science, да сучаснасці моманту праграма перавяла з "аналогу" у "лічбу" 440 мільёнаў слоў.

Распрацаваная ва Ўніверсітэце Карнегі-Меллона ў Піцбурзе праграма CAPTHA (ад ангел. Completely Automated Public Turing test to tell Computers and Humans Apart - цалкам аўтаматызаваны публічны тэст Цьюрынга для адрознівання кампутараў і людзей) дазваляе вызначыць, кім з'яўляецца карыстач сістэмы: машынай або чалавекам. Перад выкананнем які-небудзь дзеянні (напрыклад, адпраўкі e-mail-паведамленні або рэгістрацыі на форуме) CAPTCHA просіць карыстача распазнаць што-небудзь слова або набор літар і/або лічбаў і ўвесці яго з клавіятуры. Для чалавека падобная аперацыя не складае працы, аднак аптычныя счытвальныя прылады, ужывальныя, напрыклад, праграмамі па рассыланні спаму, часта не спраўляюцца з гэтай задачай.

Інтэрнэт-карыстачы выкарыстаюць праграму CAPTCHA каля 200 мільёнаў разоў у дзень. Зыходзячы з разліку, што на распазнанне і ўвод аднаго словы (або набору літар і лічбаў) у чалавека, у сярэднім, сыходзіць 10 секунд, адмыслоўцы з Універсітэта Карнегі-Меллона падлічылі, што штодня чалавецтва "губляе" каля 500 тысяч гадзін друкаванага часу. Навукоўцы вырашылі спажыць яго для аблічбоўкі кніжных і газетных архіваў.

Першым крокам для перакладу папяровых тэкстаў у лічбавы фармат з'яўляецца іх "чытанне" з дапамогай аптычных счытвальных прылад. З-за дэфектаў, узніклых пры захоўванні (напрыклад, пожелтения паперы або расплывания шрыфта) сканары не могуць распазнаць, у сярэднім, адно слова з пяці. Сумніўныя словы расшыфроўваюцца ўручную. reCAPTCHA перакладае гэтую задачу на карыстачоў Сеткі. Праграма адбірае неапазнаныя словы і прапаноўвае іх інтэрнэтчыкам замест звычайнага набору CAPTCHA. Калі тры карыстача апазнаюць сумніўнае слова аднолькава, reCAPTCHA дадае гэты варыянт у фінальны тэкст.

Праца праграмы была пратэставаная на архівах газеты The New York Times. reCAPTCHA паспяхова перавяла ў "лічбу" яе падшыўку за 1908 год. Цяпер яна "узялася" за наступныя выпускі. Акрамя таго, інтэрнэт-карыстачы з дапамогай reCAPTCHA аблічбоўваюць кнігі з архіва Internet Archive.


рэкамендуем прачытаць таксама

Каментаванне не дазволенае.

Rambler's Top100