Последовательность шагов:

1. Выберите или введите язык.

2. Выберите файл формата txt или вставьте текст из буфера обмена в соответствующее поле.

3. Нажмите кнопку «Пуск».


Демонстрация


Подробное описание

Меню «Язык интерфейса»

При помощи пиктограмм и можно переключаться между русским и английским языками. Обратите внимание: смена языка приводит к потере введенных данных!


Вкладка «Входные данные»

В этой вкладке указывается язык, добавляются тексты для анализа и, по завершении анализа, выполняется поиск. В состоянии по умолчанию, то есть до запуска текстового анализа, вкладку «Входные данные» свернуть нельзя. Она может быть скрыта после обработки введенных текстов и активации других вкладок.


Меню-поле «Выберите или введите язык»

Это раскрывающееся меню содержит пять языков на выбор. Языки выбираются исключительно для экономии времени. Кроме того, можно вручную ввести любой язык или название для соответствующего множества текстов. В дальнейшем сведения о языке будут использоваться во вкладках «Источники», «Статистика вхождений» и «Статистика единиц».


Флажок «Кириллица»

Не забудьте установить этот флажок, если загружаемые тексты основаны на кириллическом алфавите. При выборе в раскрывающемся меню русского языка (Russian) этот флажок будет установлен автоматически.


Пиктограмма «Добавить столбец» — 

Нажмите эту пиктограмму, чтобы добавить еще одно множество. Под множеством понимается множество текстов для анализа, в том числе на другом языке. Можно добавить неограниченное количество столбцов. При необходимости каждый столбец можно удалить, нажав соответствующую пиктограмму «Удалить столбец» — .


Кнопка «Выберите файл»

Нажмите эту кнопку, чтобы выбрать текстовый файл для анализа. Используйте только формат txt.


Поле «Или вставьте текст сюда»

В качестве альтернативы текст может ввести, вставив его из буфера обмена в это поле. Примечание: для корректной работы функции анализа необходимо ввести не менее двух слов.


Поле «Название текста»

В этом поле вводится описание выбранного/вставленного текста. Позднее название будет использоваться во вкладке «Источники» для сравнения статистических данных.


Пиктограмма «Добавить текст» —

Нажмите эту пиктограмму, чтобы добавить еще один текст для анализа. Выполните описанную выше процедуру выбора/вставки и ввода имени. Можно добавить неограниченное количество текстов. При необходимости каждый текст можно удалить, нажав соответствующую пиктограмму «Удалить текст» — .


Кнопка «Пуск»

Нажмите кнопку «Пуск», чтобы приступить к обработке введенных текстов. Указатель мыши может на некоторое время перестать реагировать на элементы контекста. Подождите несколько секунд, пока не появится пиктограмма . После того как пиктограмма появится, активируются функция поиска и вкладки ниже.


Поле «Поиск»

В этом поле можно ввести часть слова, слово или словосочетание. Функция поиска поддерживает использование символа подстановки — звездочки (*). При необходимости звездочки можно задавать одновременно и в начале, и в конце искомого текста, например *строй* или *обрый ден*. При поиске регистр текста не учитывается. Чтобы расширить или сузить диапазон поиска, используйте поля «Включить в результаты» и «Исключить из результатов» ниже. 


Пиктограмма «Поиск» —

После ввода поискового запроса и, если необходимо, критериев включения/исключения нажмите эту пиктограмму, чтобы выполнить поиск по всем текстам рассматриваемого множества.


Поле «Включить в результаты»

Добавьте еще одно условие поиска, если состав искомого текста может меняться, например из-за чередования гласных в корне. Так, этот параметр позволяет учесть все словоформы в рамках одной парадигмы. Число совпадений, найденных по условию «Включить в результаты», будет прибавлено к общей сумме в строке «Число вхожд.». Можно добавить неограниченное количество полей «Включить в результаты».


Поле «Исключить из результатов»

Если в результаты поиска могут попасть омонимичные единицы, которые не относятся к рассматриваемой парадигме, то с помощью этого условия можно явным образом исключить такие единицы из конечной суммы. Число совпадений, найденных по условию «Исключить из результатов», будет вычтено из общей суммы в строке «Число вхожд.». Можно добавить неограниченное количество полей «Исключить из результатов». Примечание: при вводе нескольких условий «Исключить из результатов» в виде словосочетаний (в отличие от отдельных слов) общая сумма может вычисляться некорректно: в строке «Число вхожд.» будет учитываться только последнее условие для исключения.


Строка «Число вхождений»

В этой строке указывается число вхождений искомого элемента в текстах рассматриваемого множества. В результатах учитываются критерии, заданные в полях «Включить в результаты» и «Исключить из результатов». Если хотя бы в одном из полей поиска задается словосочетание (а не часть слова или отдельное слово), то единственным результатом поиска будет количество вхождений. При этом значения в других строках, то есть «%», «1/ед. всего», «Число вхожд./1000 ед.», будут отсутствовать, поскольку они носят относительный характер и для проведения сравнения требуется наличие множества аналогичных единиц.


Строка «%»

Эта строка содержит процентную долю числа вхождений искомого элемента от общего количества единиц во множестве текстов. По сути, здесь выводится то же значение, что и в строке «1/ед. всего», но в процентах.


Строка «1/ед. всего»

В этой строке представлено соотношение одного вхождения искомого элемента к общему количеству единиц в рассматриваемом множестве текстов. По сути, здесь выводится то же значение, что и в строке «%», но в виде дроби.


Строка «Число вхожд./1000 ед.»

В этой строке показано соотношение числа вхождений искомого элемента к 1000 единиц. (Примечание: 1000 — это произвольное число, которое демонстрирует пропорциональное соотношение.)


Вкладка «Визуализация»

В состоянии по умолчанию, то есть до запуска текстового анализа, эту вкладку развернуть нельзя. После нажатия кнопки «Пуск» и завершения обработки текстов откройте данную вкладку, чтобы увидеть ссылку на сформированное облако слов. Если отображается пиктограмма обработки, , дождитесь появления ссылки WordCloud_[язык]. При нажатии на ссылку откроется новая вкладка браузера с облаком слов. В настоящий момент облако не может содержать больше 1000 слов. Это 1000 единиц, которые чаще остальных встречаются в рассматриваемом множестве текстов. Слова на изображении следуют друг за другом по кириллическому или латинскому алфавиту, в зависимости от того, установлен ли флажок «Кириллица» во вкладке «Входные данные». При необходимости вкладку «Визуализация» можно скрыть, нажав на нее левой кнопкой мыши.


Вкладка «Уровни релевантности»

В состоянии по умолчанию, то есть до запуска текстового анализа, эту вкладку развернуть нельзя. В ней указаны все единицы, которые присутствуют в добавленных текстах, в порядке от самых редких к самым распространенным исходя из числа вхождений (строка «Число вхождений»). Например, если число вхождений равно 1, то единицы, указанные в соответствующем поле, встречаются во множестве проанализированных текстов только один раз. Единицы в полях выстроены в алфавитном порядке. Если вводятся тексты, где используются единицы как на латинице, так и кириллице, то сначала перечисляются слова на латинице. Вкладка «Статистика единиц» содержит дополнительную информацию по каждой единице, в том числе число вхождений и долю от общего числа единиц.

При необходимости вкладку «Уровни релевантности» можно скрыть, нажав на нее левой кнопкой мыши.


Кнопка «Экспорт в Word»

Нажмите эту кнопку, чтобы экспортировать построенную иерархию в формате docx. В конечном документе будут представлены иерархические структуры для всех добавленных  множеств текстов.


Вкладка «Источники»

В состоянии по умолчанию, то есть до запуска текстового анализа, эту вкладку развернуть нельзя. В ней содержатся статистические данные по всем введенным для анализа текстам в виде таблицы с названиями, которые были заданы в поле «Название текста» (вкладка «Входные данные»), и количеством найденных в них единиц, в том числе уникальных. Кроме того, в таблице содержится ссылка на язык, который был указан в меню «Выберите или введите язык» (вкладка «Входные данные»).

В строке «Единиц всего» указывается общее количество единиц, найденных во всех введенных текстах. 

Строка «Из них уникальных» содержит число уникальных единиц, то есть общее количество единиц за вычетом индивидуальных повторов.

Круговая диаграмма демонстрирует распределение текстов по количеству найденных в них единиц от общего количества единиц для рассматриваемого множества. Чтобы увидеть точные значения, наведите указателем мыши на сектора диаграммы.

При необходимости вкладку «Источники» можно скрыть, нажав на нее левой кнопкой мыши.


Вкладка «Статистика единиц»

В состоянии по умолчанию, то есть до запуска текстового анализа, эту вкладку развернуть нельзя. Она содержит таблицу со всеми единицами из проанализированных текстов с указанием значений количества, частотности и процентной доли. В таблице содержится ссылка на язык, который был задан в меню «Выберите или введите» язык во вкладке «Входные данные».

В столбце «Количество» показано число вхождений отдельной единицы в проанализированном множестве текстов.

Столбец «Част.» содержит значения частотности: отношение одного вхождения соответствующей единицы к общему количеству единиц — по сути, то же значение, что и в столбце «%», но в виде дроби.

В столбце «%» представлена процентная доля числа вхождений соответствующей единицы от общего количества единиц — по сути, то же значение, что и в столбце «Част.», но в процентах.

Содержимое этого списка является повторением сведений из вкладки «Уровни релевантности», за исключением более подробной информации о каждой единице и другого порядка — от самых частых к самым редким. При необходимости вкладку «Статистика единиц» можно скрыть, нажав на нее левой кнопкой мыши.


Вкладка «Статистика вхождений».

В состоянии по умолчанию, то есть до запуска текстового анализа, эту вкладку развернуть нельзя. В этой вкладке содержится таблица с указанием числа вхождений, количества единиц с соответствующим числом вхождений и процентными долями таких единиц от общего количества единиц в рассматриваемом множестве текстов. Значения располагаются в порядке от самых редких к самым частым. В таблице содержится ссылка на язык, который был указан в меню «Выберите или введите язык» во вкладке «Входные данные».

В столбце «Число вхождений» указывается, сколько раз соответствующие единицы встречаются в заданном множестве текстов. Значения в этом столбце соответствуют значениям в строке «Число вхождений» во вкладке «Уровни релевантности».

Столбец «Единиц» содержит количество единиц, имеющих соответствующее число вхождений. По сути, это все единицы, которые оказываются в одном поле во вкладке «Уровни релевантности».

В столбце «%» представлена процентная доля таких единиц, имеющих соответствующее число вхождений, от общего числа единиц в заданном множестве текстов.

При необходимости вкладку «Статистика вхождений» можно скрыть, нажав на нее левой кнопкой мыши.