Я хочу создать поисковую систему на основе мини-изображений, которой я могу предоставить файл изображения, и она будет искать похожие изображения в solr. Я использую nutch для сканирования и индексации данных в solr. Я внес изменения в файлы конфигурации nutch, например:
- Добавлено
image/*
вmimetype-filter.txt
- Убраны расширения изображений из
suffix-urlfilter.txt
- чтобы не пропускать
Я также добавил поля в solr schema.xml -
<field name="name" type="string" indexed="true" stored="true" />
<field name="iso" type="string" indexed="true" stored="true" multiValued="true" />
<field name="iso_string" type="string" indexed="true" stored="true" multiValued="true" />
<field name="aperture" type="double" indexed="true" stored="true" />
<field name="exposure" type="string" indexed="true" stored="true" />
<field name="exposure_time" type="double" indexed="true" stored="true" />
<field name="focal" type="string" indexed="true" stored="true" />
<field name="focal_35" type="string" indexed="true" stored="true" />
<dynamicField name="ignored_*" type="string" indexed="false" stored="false" multiValued="true" />
Но когда я сканирую, нет данных, которые индексируются в solr. Я не могу найти какую-либо документацию/учебник по этому поводу. Я также просмотрел несколько сообщений в stackoverflow для сканирования изображений с помощью nutch. Но я не нашел их полезными.
Может кто-нибудь, пожалуйста, направьте меня в правильном направлении относительно того, как действовать? Заранее спасибо.
filename
) и использоватьsolr.RegexReplaceProcessorFactory
(в новом поле), чтобы извлечь имя файла из URL-адреса. 17.06.2021solr.RegexReplaceProcessorFactory
Но я боюсь, что новое содержимое поля не используется для поиска. Я не получаю результатов от них. Есть ли у вас какие-либо идеи.? 22.06.2021qf
(см. solr.apache.org/guide/8_0/). Другой вариант - иметь дополнительное поле для поиска, использоватьcopyField
в вашей схеме, чтобы скопировать из других полей в этот набор текстовых полей и определить его как поле поиска по умолчанию (параметрdf
). Вы также можете изменить свой запрос, напримерcontent:bla OR filename:bla
. 22.06.2021