DSL и открытый словарный формат
Mar. 20th, 2004 07:13 amКаждый словарь и каждый тип словарей характеризуется определенным набором т.н. лексикографических параметров, то есть видов информации, которая в нем сообщается о входящих в него словарных единицах. Например, для переводного двуязычного словаря это могут быть: а) для левой части -- 1) ударение, 2) часть речи, 3) род/переходность/и т.д... б) для правой части -- 1) ударение, 2) указание на сферу применения (бот., комп. и т.д.), 3) указание на сочетаемость, 4) указание на фразеологичность, 5) указание на экспрессивность... Штука в том, что для каждого словаря -- и уж подавно для каждого типа словарей -- набор этих параметров разный. А всего лексикографические параметры исчисляются сотнями. То есть никакой жесткий стандарт для разметки DSL-подобного сырца не может быть исчерпывающим и никогда не будет.
Это говорит о том, что набор тэгов для разметки должен быть расширяемым. Возможно, на основе XML. Возможно, на основе новейшего, еще более обобщенного RDF (о котором я, правда, почти ничего не знаю; но рекомендации w3c по нему уже есть). А также о том, что DSL-формат Лингвы, при всем своем удобстве для определенного круга задач, универсальным назван быть не может. И не будет универсальным, пока не станет открытым -- и в смысле свободно распространяемым, и в смысле расширяемым.
Надо бы почитать, что об этом думают в TEI (Text Encoding Initiative) и в компании Micra (которая разметила Вебстера начала века).
Это говорит о том, что набор тэгов для разметки должен быть расширяемым. Возможно, на основе XML. Возможно, на основе новейшего, еще более обобщенного RDF (о котором я, правда, почти ничего не знаю; но рекомендации w3c по нему уже есть). А также о том, что DSL-формат Лингвы, при всем своем удобстве для определенного круга задач, универсальным назван быть не может. И не будет универсальным, пока не станет открытым -- и в смысле свободно распространяемым, и в смысле расширяемым.
Надо бы почитать, что об этом думают в TEI (Text Encoding Initiative) и в компании Micra (которая разметила Вебстера начала века).
no subject
Date: 2004-03-20 03:21 am (UTC)no subject
Date: 2004-03-20 05:08 pm (UTC)Ня факт, што такі ўнівэрсальны фармат будзе цалкам свабодны -- напэўна ж, будуць узгадняцца і зацьвярджацца нейкія агульныя стандарты.