Закон Хипса
Перейти к навигации
Перейти к поиску

Зако́н Хи́пса — эмпирическая закономерность в лингвистике, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой
- ,
где VR — число уникальных слов в тексте размера n. K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов, K обычно лежит между 10 и 100, а β между 0.4 и 0.6.
Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.[1] С некоторым приближением закон Гердана-Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.[2]
Примечания
Ссылки
- Шаблон:Citation.
- Шаблон:Citation.
- Шаблон:Citation. Heaps' law is proposed in Section 7.5 (pp. 206—208).
- Шаблон:Citation.
- Шаблон:Citation.
- Шаблон:Citation.
- Шаблон:Citation.
- ↑ Шаблон:Harvtxt: «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
- ↑ Шаблон:Harvtxt; Шаблон:Harvtxt; Шаблон:Harvtxt.