Волошин Виктор Винзор : другие произведения.

Вики: языковой мониторинг

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками
 Ваша оценка:
  • Аннотация:
    Анализ активных людей в Википедии по языковому признаку


Языковой мониторинг Википедии

   Хотелось бы проанализировать языковое разнообразие, взяв за основу Википедию.
   Вернее - лишь одну характеристику - количество статей. Она показывает далеко не всё, тем более в различных регионах мира.
   Нас интересует лишь бСССР.
   Итак, таблица по языкам:
Язык11.2008 articles9.200910.201005.201310.2014
Romance(Italic) languages 2,540,230 3,029,805 3,815,285 * 5,380,685 5,936,804
Romanian (Română) - ro 117,626 130,154 150,862 225,702252,559
Moldovan (Молдовеняскэ) - mo 401 (read-only) 401 (read-only) 401 (locked) 401 (locked)401 (locked)
 * переименован в Italic
 
   Дать какую-либо оценку молдавского языка нельзя, поскольку молдаване пользуются румынским.
   Зато можно дать однозначную оценку усилиям Приднестровья оставить кириллицу в "молдавском" - статей всего 401, да и то, под грифом - "только для чтения", а в 2010 и вообще закрытый проект.
  
Язык11.2008 articles9.200910.201005.201310.2014
Slavic languages 1,564,317 1,911,034 2,444,253 3,795,2624,518,305
Polish (Polski) - pl 548,104 631,252 732,257 966,610 1,067,796
Russian (Русский) - ru 327,062 427,689 598,815 1,000,441 1,152,766
Ukrainian (Українська) - uk 129,711 159,556 232,270 442,114529,349
Czech (Čeština) - cs 110,649 135,269 174,679 265,122 305,743
Slovak (Slovenčina) - sk 101,874 109,640 117,854 183,699 195,242
Serbian (Српски) - sr 67,255 89,517 122,747 187,500 252,508
Slovenian (Slovenščina) - sl 66,120 79,195 101,378 137,038 142,286
Bulgarian (Български) - bg 64,053 78,039 106,632 147,351 167,030
Croatian (Hrvatski) - hr 48,764 66,374 87,887 137,390 148,723
Bosnian (Bosanski) - bs 25,147 27,544 29,797 45,500 53,123
Serbocroatian (Српскохрватски) - sh 19,853 24,514 33,788 80,938 269,903
Macedonian (Македонски) - mk 19,797 34,328 41,972 72,017 79,148
Belarusian (Беларуская) - be 13,863 16,773 24,269 59,327 76,232
Belarusian (Беларуская) II(Тарашкевiца) - be-x-old 13,773 21,246 28,409 49,009 * 54,199
Old Church Slavonic (Словѣньскъ) - cu 332 375 469 511 543
Rusyn (Русиньскый) - rue ? ? ? 5,939 6,100
 * переименован в Тарашкевiца
 
   Одна из самых интересных таблиц - таблица по количеству статей на славянских языках.
   С какого перепуга у поляков более 500 тысяч статей - даже не знаю. Может, у них Интернет в каждом доме, не скажу.
   Далее идут статьи на русском - более 300 тысяч. Очень даже похвально.
   Меньше, но с достаточным запасом идут статьи на украинском - около 130 тысяч статей.
   Далее - чехи, словаки - ничего удивительного. И что хорошо - ноздря в ноздрю.
   Болгары неплохо, македонцы стараются, хоть у них в три раза статей меньше.
   Далее Югославия. Словенцы вообще молодцы.
   А вот диасистема южнославянских говоров с нечёткими границами (с условным разделением на сербский, хорватский, боснийский и черногорский) показывает, что, несмотря на доминирование сербского (черногорский как самостоятельный язык, судя по Вики, не состоялся как отдельный от сербского язык, ибо на нём нет ни одной статьи), хорватский и боснийский тоже хотят жить.
   Зато что оригинально - очень большое количество как для "мёртвого" языка - сербскохорваткого. Неужели, эти языки ещё могут дать новый язык в объединении, а не окончательно разделиться на три, а то и четыре?
   К примеру, количество статей на церковнославянском явно говорит, что подобного у восточных славян быть не может.
   Чем ещё интересна таблица?
   Белорусским языком. Если у южных славян деление происходило по говорному признаку, то в Беларуси - по грамматическому, теперь никто толком не знает, что такое белорусский. Итак, две версии на официальной трактовке языка (она же наркомовка) и на неофициальной, в основном диаспорной, она же тарашкевица - язык до реформы 1933 года. Исторически в Вики вначале появилась тарашкевица, а после официальной белорусской стала считаться наркомовка.
   Что можно сказать о количестве статей? Плохо с белорусским языком, даже если сложить обе версии и подсчитать как сумму.
  
Язык11.2008 articles9.200910.201005.201310.2014
Finno-Permic languages 228,824 280,562 342,095 469,476525,822
Finnish (Suomi) - fi 171,514 207,203 250,842 322,238356,210
Estonian (Eesti) - et 51,631 64,321 78,569 111,087126,865
Northern Sami (Sámegiella) - se 2,686 2,771 2,995 7,4717,705
Võro - fiu-vro 1,784 3,447 4,398 5,1075,325
Hill Mari (Кырык Мары) - mrj 0 0 0 5,1077,135
Erzya (Эрзянь) - myv 569 1,362 1,403 1,5411,714
Udmurt (Удмурт) - udm 351 376 680 3,3583,515
Moksha (Мокшень) - mdf 151 319 448 1,1401,211
Komi (Коми) - kv 138 1,488 1,524 3,8594,274
Komi-Permyak (Перем Коми) - koi 0 0 0 3,4273,429
Mari(ныне Eastern Mari) (Олык Марий) - mhr 0 ? 1,236 3,4356,070
Veps (vepsän kel') - vep 0 0 0 3,2474,083
 
   Что мы видим из северных языков?
   Финны работают неплохо, и "почти" финский неплохо подняли (выделены оба розовым), эстонский тоже неплохо живёт, да и свой "почти" эстонский неплохо поддерживает (оба выделены зелёным).
  
   А вот как с языками в России?
   2 мордовский языка - эрзянский и мокшанский - мало, очень мало статей.
   На удмурстском - совсем мало. На коми - как кот наплакал. Вот в 2010 появились крохи морийских статей. В 2013м уже появилось хоть немного статей на обоих морийских языках.
  
Язык11.2008 articles9.200910.201005.201310.2014
Turkic languages 156,823 193,093 241,159 764,695855,893
Turkish (Türkçe) - tr 113,000 130,998 150,707 209,361234,923
Azeri (Azərbaycan, Azerbaijani) - az 19,100 23,653 37,969 94,570100,944
Kazakh (Қазақша) - kk 2,540 4,261 6,506 202,406208,580
Uzbek (O'zbek) - uz 6,810 7,228 7,484 120,882127,708
Chuvash (Чăваш чěлхи) - cv 8,050 10,327 11,474 15,50430,090
Tatar (Tatarça) - tt 3,660 4,014 7,423 43,86964,263
Turkmen (Türkmençe) - tk 1,063 3,883 4,202 4,7655,061
Crimean Tatar (Qırımtatar tili, Crimean Turkish) - crh 744 858 1,543 1,7964,080
Kyrgyz (Кыргызча) - ky 632 745 1,276 24,45727,414
Bashkir (Башҡорт) - ba 404 439 858 30,53833,056
Sakha (Саха) - sah 355 4,277 7,129 9,03110,605
Uyghur (Uyghurche) - ug 0 0 0 2,9243,357
Gagauz (в Украине и в Молдове))- gag 0 0 0 2,0912,782
Karachay-Balkar (Къарачай-малкъар(Кабардино-балкарский)) - krc 0 ? 1,298 1,8801,951
Kara-Kalpak (Qaraqalpaqsh(в Узбекистане)) - kaa 0 0 0 6211,079
Tuvinian (тыва дыл) - tyv 0 0 0 ?706
Язык11.2008 articles9.200910.201005.201310.2014
Northeast Caucasian languages 301 807 1,119 5,71367,033
Chechen (Нохчийн) - ce 134 391 661 1,97562,391
Avar (Авар МацӀ) - av 152 377 388 1,0941,345
Lak (Лакку) - lbe 15 39 70 1,1911,204
Lezghia (Лезги) - lez 0 0 0 1,4532,093
Язык11.2008 articles9.200910.201005.201310.2014
Northwest Caucasian languages 44 189 519 1,8322,294
Abkhazian (Аҧсуа / Aṗsua) - ab 44 189 519 807832
Kabardian (Адыгэбзэ) - kbd 0 0 0 1,0251,462
Язык11.2008 articles9.200910.201005.201310.2014
Iranian languages 78,875 99,955 154,716 383,863528,919
Persian (فارسی) - fa 50,025 62,661 106,249 307,066425,664
Kurdish (Kurdî / كوردی) - ku 11,910 12,629 * 15,207 19,62520,751
Tajik (Тоҷикӣ) - tg 8,795 8,870 9,135 10,86429,836
Ossetian (Ирон æвзаг) - os 2,065 3,529 7,272 8,9399,723
  
Язык11.2008 articles9.200910.201005.201310.2014
Mongolic languages 2,006 3,329 7,101 12,02516,422
Mongolian (Монгол) - mn 1,868 3,131 5,196 9,45413,373
Kalmyk (Хальмг) - xal 75 124 1,810 1,8721,877
Buryat (буряад хэлэн) - bxr 63 74 95 6991,172
  
   Ещё одна интересная таблица.
   Турецкий язык не то, чтобы процветает, но живёт неплохо. Хотя курды не дремлют, они почти так же активны, как и азербайджанцы.
   А вот далее - сенсация - на чувашском языке написано невероятно много относительно других языков РФ. Больше даже чем татары в два раза! Примерно столько же, сколько и таджики!
  
   И, если малое количество на узбекском, туркменском и киргизском можно объяснить низким Интернет -покрытием, то 2 тысячи статей на казахском я объяснить не могу. Это ещё одна сенсация.
К 2013 году ситуация несколько изменилась, гос.языки (казахский, узбекский, туркменский хорошо нарастили количество статей)
   Если судить о живости языка, то третим живым языком в РФ можно назвать осетинский. На нём написали более 2 тысяч статей.
  
   А вот с остальными языками - намного хуже. Башкирский, якутский (который "Саха"), аварский, один дагестанский (один из) - плохо. Чеченский не обсуждаю, ибо там не совсем мирная ситуация. В 2010м ситуация с якутским существенно улучшилась.
  
   Что можно отметить - малое количество статей на крымско-татарском - менее тысячи.
  
  
   Теперь посмотрим по остальным странам бСССР:
  
Язык11.2008 articles9.200910.201005.201310.2014
Armenian 3,513 4,832 10,708 45,362134,474
Armenian (Հայերեն) - hy 3,513 4,832 10,708 45,362134,474
Язык11.2008 articles9.200910.201005.201310.2014
Kartvelian languages 22,000 32,722 43,124 80,19390,181
Georgian (ქართული) - ka 22,000 32,722 43,124 75,59185,414
Mingrelian (მარგალური) - xmf 0 0 0 4,6024,767
Язык11.2008 articles9.200910.201005.201310.2014
Baltic languages 100,095 120,863 161,111 221,138238,337
Lithuanian (Lietuvių) - lt 74,500 87,912 118,342 158,522167,496
Latvian (Latviešu) - lv 17,900 22,018 30,216 48,40656,392
Samogitian (Žemaitėška) - bat-smg 7,695 10,933 12,553 13,45213,680
Latgalian (latgaļu) - ltg 0 0 0 758769
 
   Последняя, но не менее интересная таблица.
   На армянском поразительно мало написано. Третья сенсация.
   И маловато написано на латвийском (не сравниться ни с эстонским, ни с литовским).
   На латвийском написали столько, сколько на белорусском.
  
   И напоследок, те, языки, которые есть в РФ и я не упомянул - на них нет НИ ОДНОЙ статьи в Вики.
   Выводы нужны?
 Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"

Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"