Глоссарий терминов по поиску
Релевантность
Relevance
Релевантность - в широком смысле - мера соответствия получаемого результата желаемому результату.
Релевантность - в поисковых системах - мера соответствия результатов поиска задаче поставленной в запросе. Различают содержательную и формальную релевантности.
Коэффициент ложной выдачи
Fallout ratio
Коэффициент ложной выдачи - в информационном поиске - отношение числа выданных нерелевантных документов к общему числу нерелевантных документов, имеющихся в информационном массиве.
Коэффициент молчания
Silence ratio
Коэффициент молчания - в информационном поиске - отношение числа невыданных нерелевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.
Коэффициент полноты поиска
Recall ratio
Коэффициент полноты поиска - в информационном поиске - отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.
Коэффициент точности поиска
Precision ratio
Коэффициент точности поиска - отношение числа найденных релевантных документов к общему числу выданных документов.
Коэффициент шума
Noise ratio
Коэффициент шума - в информационном поиске - отношение числа выданных нерелевантных документов в к общему числу выданных документов.
Критерий выдачи
Retrieval criterion
Критерий выдачи - совокупность признаков, по которым:
-1 определяется степень соответствия поискового образа документа поисковому предписанию; и
-2- принимается решение о выдаче или невыдаче того или иного документа в ответ на информационный запрос.
Критерий смыслового соответствия
Критерий смыслового соответствия - формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими.
Пертинентность
Pertinence
Пертинентность - соответствие полученной информации информационной потребности пользователя.
Поисковый шум
Noise
Поисковый шум - в информационном поиске - совокупность выданных нерелевантных документов.
Релевантный документ
Релевантный документ - документ, смысловое содержание которого соответствует информационному запросу.
Содержательная релевантность
Содержательная релевантность - соответствие документа информационному запросу, определяемое неформальным путем.
Устойчивость поиска
Устойчивость поиска - характеристика изменения полноты и точности поиска при семантически незначительных (малых) изменениях запроса.
Обычно средние значения полноты и точности для конкретной системы вычисляют путем тестирования на эталонной базе документов.
Формальная релевантность
Формальная релевантность - соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.
Результаты опроса пользователей, проведенного исследователями Nigma.ru:
Когда вы заходите на поисковую систему, чаще всего вы:
- точно знаете, что хотите найти; можете это сформулировать - 52%
- примерно представляете, что вам нужно; необходима помощь в формулировании - 40%
- вообще не знаете что искать; хотите просто найти что-то интересное - 7%
- плохо понимаете, что вы ищете; нужен совет, что и как найти - 2%
О количестве слов в кластере текста у Google
(Взято из группы Гугл http://groups.google.com/group/Network-Sociology. Автор Николай Петров)
А теперь представляю вашему вниманию аверетч (средний показатель), полученный от анализа количества слов в кластере текста.
Фругл при поиске выдает *15-18* слов, не считая заголовка конечно. О заголовках могу написать отдельный доклад. Гугл Ньюз выдает в среднем около
тридцатника (*30*). Гугловый поиск дает где-то *14-18* слов, я имею ввиду черный текст в результатах поиска, на который нельзя тыркнуть.
А теперь сядте в удобную позу, потрите в ладоши, предвосхищая сногсшибательную информацию о гугловой словестной кластеризации, и...
Сели?
Количество слов, появляющихся на строке сервиса Gmail при хорошем разрешении равно... *12-15*! Это включая от кого письмо, включая надписи от
ярлыков, и естевственно первые слова из текста самого письма.
Но мы на этом не остановимся, и при дальнейшем исследовании обнаружим, что в Google Reader размер текстового кластера составляет *25-35* слов.
Интересно, что это равно гугловским новостям. Т.е., чтобы наиболее адекватно воспринять факт или событие, недавно произошедшее в мире, нужно около 30
слов.
И на добивание обещанная информация о количестве слов в абзаце моего супер-словаря иностранных слов:
Барабанная дробь...
*12-28*!!!
...
Ну вот, все срастается!
Объем текстовой информации тоже можно разделить на три кластерные категории:
1 - *заголовки* ( от *1-2* до *5* слов)
2 - эффективные текстовые кластеры (от *12-15* до *25-35* слов)
3 - весь остальной многостраничный текст, в том числе Война и Мир (более *120* слов).
Итересно что рекламу в этой классификации делает тоже вторая группа, и вторая группа имеет наибольшее значение в получении бытовой (каждодневной) но принципиально важной информации.