miram: (Default)
[personal profile] miram
Каждый словарь и каждый тип словарей характеризуется определенным набором т.н. лексикографических параметров, то есть видов информации, которая в нем сообщается о входящих в него словарных единицах. Например, для переводного двуязычного словаря это могут быть: а) для левой части -- 1) ударение, 2) часть речи, 3) род/переходность/и т.д... б) для правой части -- 1) ударение, 2) указание на сферу применения (бот., комп. и т.д.), 3) указание на сочетаемость, 4) указание на фразеологичность, 5) указание на экспрессивность... Штука в том, что для каждого словаря -- и уж подавно для каждого типа словарей -- набор этих параметров разный. А всего лексикографические параметры исчисляются сотнями. То есть никакой жесткий стандарт для разметки DSL-подобного сырца не может быть исчерпывающим и никогда не будет.

Это говорит о том, что набор тэгов для разметки должен быть расширяемым. Возможно, на основе XML. Возможно, на основе новейшего, еще более обобщенного RDF (о котором я, правда, почти ничего не знаю; но рекомендации w3c по нему уже есть). А также о том, что DSL-формат Лингвы, при всем своем удобстве для определенного круга задач, универсальным назван быть не может. И не будет универсальным, пока не станет открытым -- и в смысле свободно распространяемым, и в смысле расширяемым.

Надо бы почитать, что об этом думают в TEI (Text Encoding Initiative) и в компании Micra (которая разметила Вебстера начала века).
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

December 2025

S M T W T F S
 123456
78910111213
14151617181920
21222324252627
28 2930 31   

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 10th, 2026 05:32 am
Powered by Dreamwidth Studios