Как подготовить документы к загрузке и индексации
Практика первого пакета документов: качество исходника, актуальность версии и минимальный набор, который даст чистый результат.
- Вы загружаете первые документы
- Ответы слабые и вы подозреваете качество корпуса
- Нужно подготовить набор для пилота
- Более чистый старт корпуса знаний
- Выше шанс получить релевантный первый ответ
- Меньше шума от архива и старых версий
Качество исходника важнее объёма
Для первого запуска всегда лучше один небольшой, но чистый пакет документов, чем большой архив спорящих материалов. Качество корпуса сильнее влияет на результат, чем голый объём.
Если в базе одновременно лежат актуальная версия, старый черновик и скан сомнительного качества, пользователь чаще получает шум и неопределённость, чем пользу.
- Оставляйте только те материалы, которые реально должны участвовать в ответе.
- Для первого теста выбирайте документы, по которым можно быстро проверить правильность результата.
- Не пытайтесь в один день очистить весь архив — начните с одного рабочего контура.
Что проверить до загрузки
Перед загрузкой полезно ответить на три вопроса: документ актуален, текст читаем и этот материал действительно должен участвовать в поиске по текущему процессу. Если хотя бы на один вопрос ответ “не уверен”, лучше сначала прояснить это вручную.
Особое внимание уделяйте сканам, приложениям к договорам, фотографиям и таблицам. У них выше риск искажений, потерь структуры и ошибок чтения.
Проверьте версию
Убедитесь, что это не устаревший черновик и не файл, который уже заменён новым утверждённым документом.
Проверьте читаемость
Если глазами трудно читать документ, системе будет не легче. Особенно это касается сканов, фото и плохо экспортированных PDF.
Проверьте назначение
Не загружайте материалы только “на всякий случай”, если они не нужны текущему рабочему сценарию.
Как понять, что загрузка действительно удалась
Недостаточно увидеть файл в списке. Проверка успеха — это короткий прикладной вопрос по содержанию документа и понятный ответ с опорой на текст. Только так можно убедиться, что документ участвует в рабочем поиске так, как вы ожидаете.
Если файл виден, но вопрос по нему не даёт нужного ответа, ищите причину в качестве исходника, неактуальной версии, слишком широком запросе или в избыточном шуме корпуса.