Закон Хипса

Материал из testwiki
Перейти к навигации Перейти к поиску
Типичный график, иллюстрирующий закон Хипса. По оси x — размер текста, по оси y — число уникальных слов в тексте. Сравните значения на двух осях

Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой

,

где VR — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов, K обычно лежит между 10 и 100, а β между 0.4 и 0.6.

Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана-Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]

Примечания

Шаблон:Примечания

Ссылки

  1. Шаблон:Harvtxt: «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
  2. Шаблон:Harvtxt; Шаблон:Harvtxt; Шаблон:Harvtxt.