Cognitive Technologies представляет Систему автоматического анализа и сравнения текстов

ПредыдущаяСледующая
1174

В течение многих лет компания Cognitive Technologies ведет разработки в области анализа текстов и понимания документов. За это время компания создала технологию автоматизированного анализа текстов, способную решать широкий спектр задач. Элементы данной технологии созданы в рамках реализации крупных проектов, а также программы исследований и разработок, непрерывно ведущихся в компании. Примером одной из задач, решаемых с помощью данной технологии, является Система сравнения текстов и вероятностного определения авторства текста (проверка на плагиат) Cognitive Text Analyzer.

При разработке систем сравнения текстов необходимо исходить из того, что текст каждого автора уникален. Как рисунок отпечатков пальцев уникален для каждого человека, так и у каждого автора существует свой собственный стиль. Один автор использует больше глаголов, другой — больше существительных или прилагательных. Кто-то пишет только о природе. Кто-то о войне. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями.

Принцип работы Cognitive Text Analyzer состоит в следующем. В систему вводится исследуемый текст. Далее, Cognitive Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту. Точное количество характеристик зависит от объема текста и разнообразия конструкций, встречающихся внутри него. Скорость разбора текста на современном офисном компьютере составляет 450-500 страниц текста в минуту.

В отличие от существующих систем проверки на плагиат, использующих признаки, которые можно рассчитать вручную (например, среднее количество слов в предложении, среднее число прилагательных и т.п.), Cognitive Text Analyzer учитывает не только и не столько грамматические категории, выделенные в тексте, сколько структурные связи, подчиненность одних конструкций другим в рамках предложения. Выделенные связи инвариантны к перестановке абзацев и предложений внутри текста, контекстной замене слов. Как показали исследования, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Это позволяет сравнивать текстовые произведения, получать количественные оценки их близости и с высокой статистической достоверностью судить о принадлежности перу того или иного автора. Например, если в басне И.Крылова «Ворона и лисица» заменить «ворону» на «корову», «лисицу» на «синицу», а «сыр» на «сервелат», то Cognitive Text Analyzer, несмотря на это с высокой долей вероятности подтвердит близость измененного текста к оригиналу. Аналогичная оценка будет и в случае, если в тексте переставить местами абзацы.

Основной модуль анализа и разбора текста Cognitive Text Analyzer находится в открытом доступе на интернет-сайте компании Cognitive Technologies.

10 октября 2008 Г.

14:27

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Специалисты Apple разработали программное решение VoxelNet для улучшения работы лидаров у беспилотных авто: Специалисты Apple опубликовали статью, касающуюся технологий беспилотных авто

Эпоха доминирования Apple закончилась. OnePlus 5T существенно опережает iPhone X в скорости запуска приложений: OnePlus 5T оказался быстрее iPhone X23

В следующем году смартфоны iPhone могут получить поддержку двух карт SIM: Смартфоны iPhone 2018 года будут поддерживать две карты SIM16

MSI Optix MAG24C — не самый типичный игровой монитор с изогнутой панелью : Монитор MSI Optix MAG24C имеет кадровую частоту до 144 Гц

Все смартфоны с ОС Android отправляют Google данные о своём местоположении, даже когда соответствующая функция отключена: Смартфоны с Android незаконно собирают данные о местоположении пользователей33

Смартфон Wileyfox Pro — слабая аппаратная начинка, широкие рамки дисплея и умирающая Windows 10 Mobile: Цена устройства составит около 250 долларов22

Смартфон BlackBerry KeyTwo с 6 ГБ ОЗУ замечен в GeekBench: Все указывает на то, что это преемник BlackBerry Keyone

Uber заплатила хакерам $100 тыс., чтобы скрыть факт кражи данных 50 млн пользователей: Инцидент произошел в октябре прошлого года7

Ноутбук Asus ROG Strix GL702ZC, оснащенный CPU AMD Ryzen 7 1700 и GPU AMD Radeon RX 580, оценен в $1500: Asus ROG Strix GL702ZC можно заказать в США и в Великобритании12

Ноутбук Microsoft Surface Book 2 в играх разряжается, даже будучи подключенным к розетке: Ноутбук Microsoft Surface Book 2 не подходит в качестве геймерского решения23

Apple купила компанию Vrvana, которая специализируется на технологиях дополненной реальности: Технологии Vrvana могут быть использованы Apple при создании своей собственной гарнитуры или очков дополненной реальности5

Смартфон Xiaomi Mi Mix 3 может получить два экрана, один из которых будет занимать всю лицевую панель: Прототип, определенно, заслуживает внимания11

Xiaomi перестанет обновлять прошивки шести моделей смартфонов: Xiaomi «снимет с довольствования» модели Mi 2/2S, Mi 4i, Redmi Note 4G, Redmi 2, Redmi 2 Prime и Mi Note8

Foxconn снова использовала детский труд для сборки смартфонов Apple: В сборке iPhone X на фабрике Foxconn участвовало 3000 школьников128

Показатели Compal, Foxconn и Inventec будут расти благодаря спросу на умные АС: Inventec уже заявила, что планирует прекратить принимать заказы на производство товаров с низкой маржой

Дизайн смартфона Samsung Galaxy S9 раскрыл производитель чехлов: Первое изображение чехла для Samsung Galaxy S9 указывает на наличие разъёма для наушников6

Samsung улучшит работу сканера радужной оболочки глаза и системы распознавания лиц, но лишь на уровне ПО: Samsung хочет улучшить работу своих биометрических систем идентификации19

В Корее началась программа Upgrade to Galaxy, которая позволяет желающим опробовать Galaxy S8 и Note 8: Плата за месячный тест-драйв составит 45 долларов4

Xiaomi открыла третью фабрику в Индии: В данный момент каждую минуту завод выпускает по 7 аккумуляторов

Meizu может отказаться от использования дополнительного дисплея в своих смартфонах: Кроме того, новинка должна получить дисплей с соотношением сторон 18:9 и узкими рамками вокруг экрана2

Чтобы купить Qualcomm компании Broadcom нужно увеличить своё предложение «всего» на 10 долларов за акцию: При цене в 80 долларов за акцию компания Qualcomm согласится на сделку с Broadcom

30 ноября Samsung Bixby получит поддержку третьего языка: О поддержке русского речь пока не идет

Adata XPG Storm — активная система охлаждения для SSD формата M.2, оснащённая вентилятором с огромной скоростью вращения: СО Adata XPG Storm получила вентилятор и подсветку RGB5

Сервер HPE ProLiant DL385 Gen10 с процессорами AMD Epyc установил два новых мировых рекорда: AMD хвастает достижениями серверов на базе её CPU Epyc2

997
1318

iXBT TV

  • Обзор материнской платы Z370 Aorus Gaming 7 под процессоры Coffee Lake

  • Обзор аккумуляторной дрели-шуруповерта Bosch GSR 12V-15 FC Professional

  • Заводские экзоскелеты, обновление Firefox, слишком умные наушники

  • Репортаж с конференции Supercomputing 2017 (SC17), день 3: стенд группы компаний РСК

  • Репортаж с конференции Supercomputing 2017 (SC17), день 2: стенд Intel

  • Репортаж с конференции Supercomputing 2017 (SC17), день 1: рейтинг Top500

  • Обзор кинотеатрального DLP-проектора LG PF1000U со встроенным ТВ-тюнером

  • Камера Panasonic G9, унитазный робот, игровой смартфон, кепка для водителей

  • Обзор портативной беспроводной колонки Sven PS-460

  • Обзор напольного пылесоса Tefal Silence Force 4A TW6477 с одноразовыми мешками для сбора мусора

  • Обзор сверхширокоугольного зум-объектива Canon EF 16-35mm f/2.8L III USM

  • Обзор изогнутого 34-дюймового IPS-монитора LG 34UC99 с соотношением сторон 21:9 и белым корпусом

1212

Календарь

октябрь
Пн
Вт
Ср
Чт
Пт
Сб
Вс
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Рекомендуем почитать