Словарь Терминов
Cypher (Шифр)
Декларативный язык запросов для графовых баз данных (например, Neo4j). Позволяет описывать шаблоны узлов и связей для поиска и извлечения данных из графа. Аналог SQL для графов.
Embedding (Встраивание / Векторное представление)
Процесс преобразования данных (текста, узлов графа и т.д.) в числовые векторы таким образом, чтобы семантически схожие элементы имели близкие векторы в многомерном пространстве. Используется в векторном поиске.
Entity (Сущность / Объект)
Предмет, событие, концепция или любой другой элемент реального мира, который моделируется в графе знаний. Представляется в виде узла (Node).
Formal Execution Mechanism (Формальный механизм выполнения)
Ключевое преимущество Graph RAG. Означает, что сгенерированный LLM запрос (Cypher) реально выполняется на графовой базе данных. Результаты основаны на фактических данных и связях в графе, что повышает надежность и проверяемость ответа по сравнению с прямым выводом LLM.
Function Calling (Вызов функции)
Функциональность API больших языковых моделей (например, OpenAI), позволяющая модели не просто генерировать текст, но и запрашивать выполнение заранее определенных функций (например, функции для выполнения Cypher-запроса) и использовать результат для формирования итогового ответа.
Graph Database (База данных графов)
Тип базы данных, оптимизированный для хранения и обработки данных в виде графовой структуры (узлы, связи, свойства). Примеры: Neo4j.
Graph RAG (GraphRec)
Разновидность RAG, где источником знаний для LLM выступает граф знаний (Knowledge Graph). LLM генерирует запрос (например, Cypher) к графовой базе данных для извлечения точной, структурированной информации, которая затем используется для генерации ответа.
Knowledge Graph (Граф знаний / КГ)
Структура данных, которая представляет информацию в виде сети связанных сущностей (узлов) и их отношений (связей/ребер). Позволяет моделировать сложные взаимосвязи и выполнять семантический поиск. Также называется Семантической сетью (Semantic Network).
LLM (Large Language Model / Большая языковая модель)
Тип ИИ-модели (например, GPT-4), обученный на огромных объемах текстовых данных, способный понимать, генерировать и обрабатывать человеческий язык, а также генерировать код (включая Cypher).
Neo4j
Популярная графовая база данных, используемая в демонстрации видео для хранения и запроса графа знаний с помощью Cypher.
Node (Узел)
Основной элемент графа знаний, представляющий сущность (например, пациент, врач, лекарство, болезнь).
Ontology (Онтология)
Формальное описание структуры графа знаний. Определяет типы узлов, типы связей между ними и их свойства (атрибуты). По сути, это схема графовой базы данных.
Pipeline (Конвейер)
Последовательность шагов или процессов, через которые проходят данные или запрос в системе. В контексте видео — конвейер обработки запроса в системе RAG (например, запрос -> генерация Cypher -> выполнение Cypher -> получение результатов -> генерация ответа LLM).
Pydantic
Библиотека Python, упомянутая в видео для определения моделей данных (структуры узлов и их свойств), что помогает в создании и валидации онтологии графа.
RAG (Retrieval-Augmented Generation / Генерация с дополненным извлечением)
Техника ИИ, при которой LLM перед генерацией ответа извлекает релевантную информацию из внешнего источника знаний (например, базы данных, набора документов, графа знаний), чтобы сделать ответ более точным, актуальным и обоснованным.
Relationship (Связь / Ребро)
Элемент графа знаний, соединяющий два узла и описывающий тип их взаимосвязи (например, "прописан", "лечит", "специализируется на").
Semantic Network (Семантическая сеть)
Синоним графа знаний, подчеркивающий, что связи в сети несут смысловую (семантическую) нагрузку.
Transpiler (Транспилятор)
В контексте видео, LLM выступает как транспилятор, преобразуя запрос на одном языке (естественный язык) в код на другом языке (Cypher).
Triple (Тройка / Триплет)
Базовая единица представления данных в графе знаний, состоящая из трех частей: Субъект (узел) - Предикат (связь) - Объект (узел или значение). Пример: (Пациент А) - [ПРОПИСАН] -> (Магний).
Vector Search (Векторный поиск)
Метод поиска информации, основанный на сравнении векторных представлений (embeddings) запроса и данных. Находит наиболее "близкие" по смыслу фрагменты данных. Часто используется в RAG для неструктурированных данных (текста), но, как показано в видео, может быть менее точным для структурированных запросов (подсчеты, связи), чем Graph RAG.
Декларативный язык запросов для графовых баз данных (например, Neo4j). Позволяет описывать шаблоны узлов и связей для поиска и извлечения данных из графа. Аналог SQL для графов.
Embedding (Встраивание / Векторное представление)
Процесс преобразования данных (текста, узлов графа и т.д.) в числовые векторы таким образом, чтобы семантически схожие элементы имели близкие векторы в многомерном пространстве. Используется в векторном поиске.
Entity (Сущность / Объект)
Предмет, событие, концепция или любой другой элемент реального мира, который моделируется в графе знаний. Представляется в виде узла (Node).
Formal Execution Mechanism (Формальный механизм выполнения)
Ключевое преимущество Graph RAG. Означает, что сгенерированный LLM запрос (Cypher) реально выполняется на графовой базе данных. Результаты основаны на фактических данных и связях в графе, что повышает надежность и проверяемость ответа по сравнению с прямым выводом LLM.
Function Calling (Вызов функции)
Функциональность API больших языковых моделей (например, OpenAI), позволяющая модели не просто генерировать текст, но и запрашивать выполнение заранее определенных функций (например, функции для выполнения Cypher-запроса) и использовать результат для формирования итогового ответа.
Graph Database (База данных графов)
Тип базы данных, оптимизированный для хранения и обработки данных в виде графовой структуры (узлы, связи, свойства). Примеры: Neo4j.
Graph RAG (GraphRec)
Разновидность RAG, где источником знаний для LLM выступает граф знаний (Knowledge Graph). LLM генерирует запрос (например, Cypher) к графовой базе данных для извлечения точной, структурированной информации, которая затем используется для генерации ответа.
Knowledge Graph (Граф знаний / КГ)
Структура данных, которая представляет информацию в виде сети связанных сущностей (узлов) и их отношений (связей/ребер). Позволяет моделировать сложные взаимосвязи и выполнять семантический поиск. Также называется Семантической сетью (Semantic Network).
LLM (Large Language Model / Большая языковая модель)
Тип ИИ-модели (например, GPT-4), обученный на огромных объемах текстовых данных, способный понимать, генерировать и обрабатывать человеческий язык, а также генерировать код (включая Cypher).
Neo4j
Популярная графовая база данных, используемая в демонстрации видео для хранения и запроса графа знаний с помощью Cypher.
Node (Узел)
Основной элемент графа знаний, представляющий сущность (например, пациент, врач, лекарство, болезнь).
Ontology (Онтология)
Формальное описание структуры графа знаний. Определяет типы узлов, типы связей между ними и их свойства (атрибуты). По сути, это схема графовой базы данных.
Pipeline (Конвейер)
Последовательность шагов или процессов, через которые проходят данные или запрос в системе. В контексте видео — конвейер обработки запроса в системе RAG (например, запрос -> генерация Cypher -> выполнение Cypher -> получение результатов -> генерация ответа LLM).
Pydantic
Библиотека Python, упомянутая в видео для определения моделей данных (структуры узлов и их свойств), что помогает в создании и валидации онтологии графа.
RAG (Retrieval-Augmented Generation / Генерация с дополненным извлечением)
Техника ИИ, при которой LLM перед генерацией ответа извлекает релевантную информацию из внешнего источника знаний (например, базы данных, набора документов, графа знаний), чтобы сделать ответ более точным, актуальным и обоснованным.
Relationship (Связь / Ребро)
Элемент графа знаний, соединяющий два узла и описывающий тип их взаимосвязи (например, "прописан", "лечит", "специализируется на").
Semantic Network (Семантическая сеть)
Синоним графа знаний, подчеркивающий, что связи в сети несут смысловую (семантическую) нагрузку.
Transpiler (Транспилятор)
В контексте видео, LLM выступает как транспилятор, преобразуя запрос на одном языке (естественный язык) в код на другом языке (Cypher).
Triple (Тройка / Триплет)
Базовая единица представления данных в графе знаний, состоящая из трех частей: Субъект (узел) - Предикат (связь) - Объект (узел или значение). Пример: (Пациент А) - [ПРОПИСАН] -> (Магний).
Vector Search (Векторный поиск)
Метод поиска информации, основанный на сравнении векторных представлений (embeddings) запроса и данных. Находит наиболее "близкие" по смыслу фрагменты данных. Часто используется в RAG для неструктурированных данных (текста), но, как показано в видео, может быть менее точным для структурированных запросов (подсчеты, связи), чем Graph RAG.
Полезные ссылки
Neo4j
Сайт: https://neo4j.com/
Документация Cypher: https://neo4j.com/docs/cypher-manual/current/
Ведущая платформа графовых баз данных, использованная в демонстрации. На сайте можно найти документацию, примеры, информацию о языке запросов Cypher и скачать саму базу данных.
OpenAI
Сайт: https://openai.com/
Документация API: https://platform.openai.com/docs/
Компания-разработчик LLM (GPT-4), использованных в видео. Документация API содержит информацию о моделях, ценах и функциональности (включая Function Calling). OpenAI Academy - образовательная инициатива, организатор мероприятия.
Pydantic
Документация: https://docs.pydantic.dev/
Библиотека Python, которая использовалась для определения структуры данных (онтологии) узлов графа перед загрузкой в Neo4j.
Synthea™ Patient Generator
https://synthetichealth.github.io/synthea/
Инструмент с открытым исходным кодом для генерации синтетических медицинских записей (данных пациентов), подобных тем, что использовались для наполнения графа в демонстрации.
LlamaIndex
https://www.llamaindex.ai/
Фреймворк для создания приложений на базе LLM, упрощающий подключение к различным источникам данных, включая графовые БД. Упомянут в Q&A.
LangChain
https://www.langchain.com/
Еще один популярный фреймворк для разработки приложений с использованием LLM, также упомянут в Q&A как возможный инструмент.
Сайт: https://neo4j.com/
Документация Cypher: https://neo4j.com/docs/cypher-manual/current/
Ведущая платформа графовых баз данных, использованная в демонстрации. На сайте можно найти документацию, примеры, информацию о языке запросов Cypher и скачать саму базу данных.
OpenAI
Сайт: https://openai.com/
Документация API: https://platform.openai.com/docs/
Компания-разработчик LLM (GPT-4), использованных в видео. Документация API содержит информацию о моделях, ценах и функциональности (включая Function Calling). OpenAI Academy - образовательная инициатива, организатор мероприятия.
Pydantic
Документация: https://docs.pydantic.dev/
Библиотека Python, которая использовалась для определения структуры данных (онтологии) узлов графа перед загрузкой в Neo4j.
Synthea™ Patient Generator
https://synthetichealth.github.io/synthea/
Инструмент с открытым исходным кодом для генерации синтетических медицинских записей (данных пациентов), подобных тем, что использовались для наполнения графа в демонстрации.
LlamaIndex
https://www.llamaindex.ai/
Фреймворк для создания приложений на базе LLM, упрощающий подключение к различным источникам данных, включая графовые БД. Упомянут в Q&A.
LangChain
https://www.langchain.com/
Еще один популярный фреймворк для разработки приложений с использованием LLM, также упомянут в Q&A как возможный инструмент.