Нататкі кулхацкера
Jan. 18th, 2005 03:12 amРаз ужо вырашана перастаўляць сыстэму -- пазьбіваць настройкі ня страшна, так што заняўся даўно адкладанымі экспэрымэнтамі.
1. Паставіў WinWord 6 і прыкруціў да яго беларускі спэлчэкер. Інсталяцыя WW6 займае 11 дыскет, спэлчэкер -- адкуль яго ўзяў, ужо ня памятаю -- складаецца з трох файлаў: spellbel.dll (21.504 b.), bel.svi (1.439.777 b.), абодва датуюцца 16.11.1995, і winword6.ini (2.359 b., 22.01.1997). Файл .svi, відавочна слоўнікавы, -- бінарны; мае шапку: "DICSVI.VER0201.LID0423(BEL) Create 16.11.1995". Упісаў у вардовы .ini радок са спэлчэкернага .ini -- са сьцежкаю да астатніх двух файлікаў. Ажно беларускай мовы няма ў сьпісе даступных у Вордзе. Перапісаў тады гэты радок, замяніўшы код беларускай мовы на код каталонскай, і пазначыў свой тэкст як каталонскі. Тут зафурычыла. Загнаў просьценькі беларускі тэксьцік, стаў правяраць. Выглядае на тое, што праграма ведае вельмі мала словаў (менш за "Арфабел") -- на кожным радку па тры разы спынялася. Ну, праўда, пры пустым слоўніку было б па 7-10. Часам прапаноўвала замену, часьцей не. Беларускія "і", "ў" адбіваюцца ў акне праверкі глючна (як у тым жа "Арфабеле"). Тым ня менш ясна, што гэта сапраўды беларускі спэлчэкер у рабочым стане, хоць і страшна недасканалы.
Што за файл .svi і як бы яго перавярнуць у людзкі фармат? На http://filext.com нешта левае.
2. Далей -- "Litara" aka "Правапіс" (беларускі спэлчэкер пад Word 2003). Ставіцца такім парадкам. Спачатку інсталятар выплёўвае ў %Temp% 20-мэтровы тэкставік з 1,5+ млн. словаформаў тарашкевіцы і пачынае яго кампіляваць у файл .LEX, жаручы пры гэтым месца, як саранча. Скампіляваны .LEX займае 54 мэтры -- у 2,7 раза больш за зыходны тэкставік; першы раз бачу, каб пасьля кампіляцыі слоўнікавы файл не сьціскаўся, а разьдзімаўся. Далей выплёўваецца аналягічны амаль 20-мэтровы тэкставік з наркамаўкай, і апісаная працэдура паўтараецца. Акрамя двух гэтых .LEX-аў, у кораневай дырэкторыі Офісу апынаецца па адным файліку .hlp, .cnt, .dll і два тэкставікі з фрагмэнтамі словаў тарашкевіцы і наркамаўкі -- парамі ў адзін і ў другі бок. Але дзіўна, што ў напрамку "Т > Н" 4107 параў, а ў напрамку "Н > Т" -- толькі 3760; адкуль такая неадпаведнасьць, няясна. Пры кожнай пары яшчэ лічба нейкая. Файл з шаблонам кладзецца ў аўтазагрузку. Зыходныя тэкставікі трэба будзе яшчэ пакруціць наконт памылак, якія ў такі вялізны масыў не маглі не закрасьціся. І праўда, адразу трапілася "пансіённных".
Ці трымаць Word 10 толькі дзеля праверкі правапісу? Запакаваны "Арахнафіліяй" у .dic 20-мэтровы тэкставік важыць трохі больш за 4 Мб. Можа ў нечым гэта і менш зручна, але выбіраць не даводзіцца: месца мала. Яшчэ трэба будзе пагуляць з 4Spell'ам; для яго слоўнік павінен быць у тэкставіку, але адмыслова рассартаваным -- паводле даўжыні словаў, а словы аднолькавай даўжыні -- паводле альфабэту. І сама праграма, што да праверкі правапісу, нашмат зручнейшая за "Арахнафілію"
Для "Арфабела" сьпісы трэба будзе трохі падкруціць: ён адно і тое ж слова з малой і з вялікай літары мае за два розныя словы.
3. А вось у Вордзе 5-м, пад DOS, з беларускім інтэрфэйсам, правапіс і сынонімы даступныя толькі ангельскія, і то калі знойдзецца адпаведны .LEX.
1. Паставіў WinWord 6 і прыкруціў да яго беларускі спэлчэкер. Інсталяцыя WW6 займае 11 дыскет, спэлчэкер -- адкуль яго ўзяў, ужо ня памятаю -- складаецца з трох файлаў: spellbel.dll (21.504 b.), bel.svi (1.439.777 b.), абодва датуюцца 16.11.1995, і winword6.ini (2.359 b., 22.01.1997). Файл .svi, відавочна слоўнікавы, -- бінарны; мае шапку: "DICSVI.VER0201.LID0423(BEL) Create 16.11.1995". Упісаў у вардовы .ini радок са спэлчэкернага .ini -- са сьцежкаю да астатніх двух файлікаў. Ажно беларускай мовы няма ў сьпісе даступных у Вордзе. Перапісаў тады гэты радок, замяніўшы код беларускай мовы на код каталонскай, і пазначыў свой тэкст як каталонскі. Тут зафурычыла. Загнаў просьценькі беларускі тэксьцік, стаў правяраць. Выглядае на тое, што праграма ведае вельмі мала словаў (менш за "Арфабел") -- на кожным радку па тры разы спынялася. Ну, праўда, пры пустым слоўніку было б па 7-10. Часам прапаноўвала замену, часьцей не. Беларускія "і", "ў" адбіваюцца ў акне праверкі глючна (як у тым жа "Арфабеле"). Тым ня менш ясна, што гэта сапраўды беларускі спэлчэкер у рабочым стане, хоць і страшна недасканалы.
Што за файл .svi і як бы яго перавярнуць у людзкі фармат? На http://filext.com нешта левае.
2. Далей -- "Litara" aka "Правапіс" (беларускі спэлчэкер пад Word 2003). Ставіцца такім парадкам. Спачатку інсталятар выплёўвае ў %Temp% 20-мэтровы тэкставік з 1,5+ млн. словаформаў тарашкевіцы і пачынае яго кампіляваць у файл .LEX, жаручы пры гэтым месца, як саранча. Скампіляваны .LEX займае 54 мэтры -- у 2,7 раза больш за зыходны тэкставік; першы раз бачу, каб пасьля кампіляцыі слоўнікавы файл не сьціскаўся, а разьдзімаўся. Далей выплёўваецца аналягічны амаль 20-мэтровы тэкставік з наркамаўкай, і апісаная працэдура паўтараецца. Акрамя двух гэтых .LEX-аў, у кораневай дырэкторыі Офісу апынаецца па адным файліку .hlp, .cnt, .dll і два тэкставікі з фрагмэнтамі словаў тарашкевіцы і наркамаўкі -- парамі ў адзін і ў другі бок. Але дзіўна, што ў напрамку "Т > Н" 4107 параў, а ў напрамку "Н > Т" -- толькі 3760; адкуль такая неадпаведнасьць, няясна. Пры кожнай пары яшчэ лічба нейкая. Файл з шаблонам кладзецца ў аўтазагрузку. Зыходныя тэкставікі трэба будзе яшчэ пакруціць наконт памылак, якія ў такі вялізны масыў не маглі не закрасьціся. І праўда, адразу трапілася "пансіённных".
Ці трымаць Word 10 толькі дзеля праверкі правапісу? Запакаваны "Арахнафіліяй" у .dic 20-мэтровы тэкставік важыць трохі больш за 4 Мб. Можа ў нечым гэта і менш зручна, але выбіраць не даводзіцца: месца мала. Яшчэ трэба будзе пагуляць з 4Spell'ам; для яго слоўнік павінен быць у тэкставіку, але адмыслова рассартаваным -- паводле даўжыні словаў, а словы аднолькавай даўжыні -- паводле альфабэту. І сама праграма, што да праверкі правапісу, нашмат зручнейшая за "Арахнафілію"
Для "Арфабела" сьпісы трэба будзе трохі падкруціць: ён адно і тое ж слова з малой і з вялікай літары мае за два розныя словы.
3. А вось у Вордзе 5-м, пад DOS, з беларускім інтэрфэйсам, правапіс і сынонімы даступныя толькі ангельскія, і то калі знойдзецца адпаведны .LEX.
no subject
Date: 2005-01-18 06:55 pm (UTC)1. Гэты спэлчэкер бяз макрасаў не паставіцца, бо ён сам працуе на макрасах. Тэарэтычна можна было б на аснове сабранага словасьпісу скампіляваць слоўнік вардовага фармату і падключаць праз стандартную працэдуру; праблема ў тым, што фармат вардовых слоўнікаў невядомы (мне, прынамсі -- шукаў быў неяк). Да normal.dot "Літара" ня мае дачыненьня: усе яе макрасы жывуць у pravapis.dot. Замыкаць шаблон з макрасамі перад выпускам яго ў сьвет -- мне таксама недаспадобы, але ўсе так робяць. Зрэшты, гэтая абарона ламаецца за хвіліну.
2. Канвэрсія правапісаў, здаецца, пабудавана на кантэкстнай замене фрагмэнтаў паасобных словаў. Што слоўнік няпоўны -- гэта непазьбежна; у прынцыпе, калі б карыстальнікі дасылалі аўтарам свае калекцыі дапаўненьняў, ён бы хутка разросься; але аўтары, здаецца, хвастом накрыліся: абяцалі новую вэрсію ў жніўні, а ўжо блізка лютага, і ніякай сувязі з імі, акрамя іхняга мэйлу, не прадугледжана -- ні форуму, ні гасьцявухі. А адкуль відаць, што слоўнік усё ж дапаўняецца?
3. З апострафамі праблема ня столькі ў тым, што маем іх на выбар тры, колькі ў тым, што невідавочна, чаму канкрэтна той ці іншы з іх павінен брацца за аснову. Я, прынамсі, ня бачу. У прынцыпе, правільнае напісаньне павінна быць адно -- значыць, і правільны апостраф адзін. Але каторы? Чаму, працуючы ў Вардзе, мы пагаджаемся, што ён нам заменіць апостраф на зграбнейшы, а запускаючы праверку правапісу ў тым жа Вардзе, маем аб гэты зграбнейшы апостраф спатыкацца?
4. Астатняе -- хібы праграмісцкія: альгарытмічныя і г.д.
5. А слабо дапрацаваць? Я адтуль макрасы павыцягваў, хочаш -- прышлю.