Евразийский сервер публикаций

Евразийский патент № 040619

   Библиографические данные
(11)040619    (13) B1
(21)202092855

 A ]   B ]   C ]   D ]   E ]   F ]   G ]   H ] 

Текущий раздел: G     


Документ опубликован 2022.07.06
Текущий бюллетень: 2022-07  
Все публикации: 040619  
Реестр евразийского патента: 040619  

(22)2020.12.23
(51) G06F 40/10 (2020.01)
G06F 40/279 (2020.01)
G06N 3/08(2006.01)
(43)A1 2021.10.29 Бюллетень № 10  тит.лист, описание 
(45)B1 2022.07.06 Бюллетень № 07  тит.лист, описание 
(31)2020132305
(32)2020.04.28
(33)RU
(71)ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ" (ПАО СБЕРБАНК) (RU)
(72)Шаврина Татьяна Олеговна (RU)
(73)ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ" (ПАО СБЕРБАНК) (RU)
(74)Герасин Б.В. (RU)
(54)СИСТЕМА И СПОСОБ АУГМЕНТАЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
   Формула 
(57) 1. Система аугментации обучающей выборки для алгоритмов машинного обучения, содержащая
по меньшей мере один процессор;
по меньшей мере одно средство памяти;
модуль обработки входных данных, выполненный с возможностью
получения текстовых данных, формирующих исходную обучающую выборку; и
нормализации данных, при которой выполняется разделение текста на предложения и очистка текста от символов;
модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется
разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания;
токенизация упомянутых минимально значимых частей;
формирование векторных представлений для каждого токена; и
формирование усредненного векторного представления нормализованного предложения;
модуль обогащения текстовых данных, содержащий набор текстовых данных, собираемых из открытых источников, и метаданные, для их векторизации и построения поискового индекса;
модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных;
модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве.
2. Система по п.1, характеризующаяся тем, что модуль векторизации данных формирует усредненное векторное представление текста.
3. Система по п.2, характеризующаяся тем, что размерность усредненного векторного представления равна 768:1.
4. Система по п.1, характеризующаяся тем, что метаданные включают в себя по меньшей мере одно из следующего: ссылка на источник в глобальной сети Интернет, дата источника, жанр, дата создания, данные автора, рубрика, тематика, количество слов в источнике.
5. Система по п.1, характеризующаяся тем, что мера близости токенов и текстов в пространстве представляет собой косинусную меру близости.
6. Система по п.1, характеризующаяся тем, что в векторном пространстве каждый токен имеет уникальные координаты.
7. Система по п.6, характеризующаяся тем, что на основании координат определяются минимальные и максимальные граничные значения пространства текстов исходной обучающей выборки.
8. Система по п.7, характеризующаяся тем, что аугментация обучающей выборки осуществляется с помощью добавления новых текстов, имеющих координаты, не выходящие за пределы граничных значений.
9. Система по п.8, характеризующаяся тем, что дополнение исходной обучающей выборки осуществляется до заданного пользователем количества слов.
10. Система по п.9, характеризующаяся тем, что осуществляется итеративный поиск ближайших текстов в векторном пространстве для каждого текста из предложений исходной выборки.
11. Система по п.10, характеризующаяся тем, что уникальность подбираемых текстов определяется на основании метаданных, хранимых в модуле обогащения текстовых данных.
12. Компьютерно-реализуемый способ аугментации обучающей выборки для алгоритмов машинного обучения, выполняемый с помощью по меньшей мере одного процессора и содержащий этапы, на которых
получают текстовые данные исходной обучающей выборки;
выполняют нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов;
выполняют векторизацию нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется
разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания (токенизация); и
формирование векторных представлений для каждого нормализованного текста на основании входящих в него токенов (значимых частей);
формируют текстовый индекс по векторным представлениям текстовых данных, при этом текстовый индекс формируется из векторного пространства, формируемого из текстов, расположенных в открытых источниках, и метаданных;
осуществляют аугментацию исходной обучающей выборки с помощью подбора релевантных векторных представлений текстов на основании определения меры близости в векторном пространстве на основании поискового индекса.
13. Способ по п.12, характеризующийся тем, что при векторизации текстовых данных формируется усредненное векторное представление текста.
14. Способ по п.13, характеризующийся тем, что размерность усредненного векторного представления равна 768:1.
15. Способ по п.12, характеризующийся тем, что метаданные включают в себя по меньшей мере одно из следующего: ссылка на источник в глобальной сети Интернет, дата источника, жанр, дата создания, данные автора, рубрика, тематика, количество слов в источнике.
16. Способ по п.12, характеризующийся тем, что мера близости токенов и текстов в пространстве представляет собой косинусную меру близости.
17. Способ по п.12, характеризующийся тем, что в векторном пространстве каждый токен имеет уникальные координаты.
18. Способ по п.17, характеризующийся тем, что на основании координат определяются минимальные и максимальные граничные значения пространства текстов исходной обучающей выборки.
19. Способ по п.18, характеризующийся тем, что аугментация обучающей выборки осуществляется с помощью добавления новых текстов, имеющих координаты, не выходящие за пределы граничных значений.
20. Способ по п.19, характеризующийся тем, что дополнение исходной обучающей выборки осуществляется до заданного пользователем количества слов.
21. Способ по п.20, характеризующийся тем, что осуществляется итеративный поиск ближайших текстов в векторном пространстве для каждого текста из предложений исходной выборки.
22. Способ по п.21, характеризующийся тем, что уникальность подбираемых текстов определяется на основании метаданных.