Кампанія Cognitive Technologies прадставіла сістэму аўтаматычнага аналізу і параўнанні тэкстаў. Прынцып працы Cognitive Text Analyzer складаецца ў наступным. У сістэму ўводзіцца доследны тэкст. Далей, Cognitive Text Analyzer праводзіць сінтаксічны, семантычны і структурны разбор і аналіз тэксту, ухіляе сінтаксічныя і семантычныя неадназначнасці і выяўляе парадку сотні характарыстак, уласцівых дадзенаму тэксту. Дакладная колькасць характарыстак залежыць ад аб'ёму тэксту і разнастайнасці канструкцый, сустракаемых усярэдзіне яго. Хуткасць разбору тэксту на сучасным офісным кампутары складае 450-500 старонак тэксту ў хвіліну.
Па словах распрацоўнікаў, пры распрацоўцы сістэм параўнання тэкстаў неабходна зыходзіць з таго, што тэкст кожнага аўтара ўнікальны. Як малюнак адбіткаў пальцаў унікальны для кожнага чалавека, так і ў кожнага аўтара існуе свой уласны стыль. Адзін аўтар выкарыстае больш дзеясловаў, іншы, больш назоўнікаў або прыметнікаў. Хтосьці піша толькі аб прыродзе. Хтосьці аб вайне. У кагосьці ёсць свае ўпадабаныя абарачэнні або іншыя літаратурныя прыёмы і схемы, якія характарызуюцца пэўнымі структурнымі сувязямі.
"Калі аб прыналежнасці адбіткаў пальцаў пэўнаму чалавеку кажуць метады дактыласкапіі, то прыналежнасць тэксту пэўнаму аўтару можна вызначыць з высокай дакладнасцю з дапамогай прадстаўлянай сёння Cognitive Text Analyzer. Аднак, пры рашэнні задачы аналізу тэкстаў неабходна прымаць да ўвагі факт, што стыль (зрэшты, як і лініі рукі) можа са часам змяняцца", - кажуць у кампаніі.
Элементы тэхналогіі аналізу створаныя ў рамках рэалізацыі буйных праектаў, а таксама праграмы даследаванняў і распрацовак, якія вядуцца ў кампаніі.
У прэс-службе Cognitive кажуць, што ў адрозненне ад існых сістэм праверкі на плагіят, выкарыстоўвалых прыкметы, якія можна разлічыць уручную (напрыклад, сярэдняя колькасць слоў у прапанове, сярэдні лік прыметнікаў і т.п.), Cognitive Text Analyzer улічвае не толькі і не гэтулькі граматычныя катэгорыі, вылучаныя ў тэксце, колькі структурныя сувязі, падпарадкаванасць адных канструкцый іншым у рамках прапановы. Вылучаныя сувязі інварыянтныя да перастановы абзацаў і прапаноў усярэдзіне тэксту, кантэкстнай замене слоў. "Як паказалі даследаванні, гэтыя характарыстыкі дэманструюць высокую статыстычную ўстойлівасць ва ўжыванні да твораў пэўнага аўтара. Гэта дазваляе параўноўваць тэкставыя творы, атрымліваць колькасныя адзнакі іх блізкасці і з высокай статыстычнай пэўнасцю судзіць аб прыналежнасці пяру таго або іншага аўтара. Напрыклад, калі ў байцы І.Крылова «Крумкача і лісіца» замяніць «крумкачу» на «карову», «лісіцу» на «сініцу», а «сыр» на «сервелат», то Cognitive Text Analyzer, нягледзячы на гэта з высокай дзеллю верагоднасці пацвердзіць блізкасць змененага тэксту да арыгінала. Аналагічная адзнака будзе і ў выпадку, калі ў тэксце пераставіць месцамі абзацы", - адзначаюць у кампаніі.
рэкамендуем прачытаць таксама
- Названыя самыя ўстойлівыя ІТ-кампаніі ва ўмовах крызісу
- Cognitive распрацуе партал па госзакупкам для ФГУ «Лесоинфотека»
- IBM распрацавала новы інструментар для выяўлення памылак у праграмным кодзе
- IBM выпусціла інструментар для выяўлення памылак у праграмным кодзе
- Складзены рэйтынг устойлівасці расійскіх ІТ-кампаній ва ўмовах крызісу