Все материалыДокументыКак подготовить документы к загрузке и индексации
Все пользователи, загружающие документы
7 мин

Как подготовить документы к загрузке и индексации

Практика первого пакета документов: качество исходника, актуальность версии и минимальный набор, который даст чистый результат.

документызагрузкаиндексация
Когда читать
  • Вы загружаете первые документы
  • Ответы слабые и вы подозреваете качество корпуса
  • Нужно подготовить набор для пилота
Что даст материал
  • Более чистый старт корпуса знаний
  • Выше шанс получить релевантный первый ответ
  • Меньше шума от архива и старых версий
1

Качество исходника важнее объёма

Для первого запуска всегда лучше один небольшой, но чистый пакет документов, чем большой архив спорящих материалов. Качество корпуса сильнее влияет на результат, чем голый объём.

Если в базе одновременно лежат актуальная версия, старый черновик и скан сомнительного качества, пользователь чаще получает шум и неопределённость, чем пользу.

  • Оставляйте только те материалы, которые реально должны участвовать в ответе.
  • Для первого теста выбирайте документы, по которым можно быстро проверить правильность результата.
  • Не пытайтесь в один день очистить весь архив — начните с одного рабочего контура.
2

Что проверить до загрузки

Перед загрузкой полезно ответить на три вопроса: документ актуален, текст читаем и этот материал действительно должен участвовать в поиске по текущему процессу. Если хотя бы на один вопрос ответ “не уверен”, лучше сначала прояснить это вручную.

Особое внимание уделяйте сканам, приложениям к договорам, фотографиям и таблицам. У них выше риск искажений, потерь структуры и ошибок чтения.

1

Проверьте версию

Убедитесь, что это не устаревший черновик и не файл, который уже заменён новым утверждённым документом.

2

Проверьте читаемость

Если глазами трудно читать документ, системе будет не легче. Особенно это касается сканов, фото и плохо экспортированных PDF.

3

Проверьте назначение

Не загружайте материалы только “на всякий случай”, если они не нужны текущему рабочему сценарию.

3

Как понять, что загрузка действительно удалась

Недостаточно увидеть файл в списке. Проверка успеха — это короткий прикладной вопрос по содержанию документа и понятный ответ с опорой на текст. Только так можно убедиться, что документ участвует в рабочем поиске так, как вы ожидаете.

Если файл виден, но вопрос по нему не даёт нужного ответа, ищите причину в качестве исходника, неактуальной версии, слишком широком запросе или в избыточном шуме корпуса.

Продолжение по теме

Связанные материалы из этого и соседних разделов

Весь каталог