Monday 7 December 2009
Компьютер хэл шинжлэл ба цахим үгийн сан (1) байгуулах асуудалд

 

Компьютер хэл шинжлэл ба дэлхийн чиг

 

Бидний амьдран буй энэ зууны хүн төрөлхтөний өдөр тутмын ахуй амьдрал, амьдралын хэв маягийг компьютер болон компьютержсэн орчингүйгээр төсөөлөхийн аргагүй болжээ. XX зууны дунд үеэс компьютер хэмээх нэгэн шинэ техникийг үйлдвэрлэн гаргах болсноор олон салбарын эрдэмтэн мэргэд судалгааны ажилдаа өргөнөөр хэрэглэх болсон билээ. Шинжлэх ухааны бүхий л салбар чиглэлүүд, ялангуяа хэл шинжлэлийн судалгаа ч гэсэн энэ чиг хандлагаар хөгжих зайлшгүй шаардлагатай болсон бөгөөд гадаадын өндөр хөгжилтэй орнуудад энэ талаар нэлээд амжилт олжээ. Манай хэл судлалын эрдэмтэн мэргэдүүд ч энэ тал дээр ихээхэн анхаарч судалгаандаа компьютер хэрэглэх болсон. Монгол улсын хувьд энэ чиглэлийн судалгаа одоогоор шинэ сэргэг байгаа бөгөөд компьютер хэл шинжлэлийн судалгааг зайлшгүй эхлүүлж өндөр түвшинд хөгжүүлэх шаардлага тулгарч байгаа юм.

Товчхон хэлбэл, компьютер хэл шинжлэл гэдэг нь компьютерийн тусламжтайгаар хэлэнд задлан шинжилгээ хийхийг хэлэх (2) бөгөөд эхэн үедээ хэлний мэргэжилтнүүд компьютер дотор их хэмжээний материалыг хадгалаад (хэрэглээ нь хувь хүний шинжтэй байсан), түүн дотроосоо өөрийн хэрэгцээт үг хэллэг, хэлц зэргийг сонгон авч хэрэглэдэг байсан бол эдүгээ хэлний материалын сан байгуулан түүгээрээ дамжин маш олон хэл судлалын асуудлыг шийдвэрлэж чадах хэмжээнд хүрчээ.

Компьютерээр текстэд боловсруулалт хийх санаа нь өнгөрсөн зууны далаад оноос эхэлсэн ажээ. Тодруулбал, 1973 онд уран зохиол болон хэлний судалгаан дахь компьютерийн хэрэглээг дэмжих зорилгоор “Утга зохиол ба компьютер хэл шинжлэлийн холбоо” (3) байгуулагдсан бөгөөд тус холбооноос “Literary and Linguistic Computing” сэтгүүлийг эрхлэн гаргаж байна. (4) Тус холбооны тухай бичсэн Говинданкуттигийн (5)  товч мэдээлэлд "Хэл шинжлэлийн эрдэмтэн Дравиданы (6) судалгаа нь хүний хүчээр хийдэг байсан судалгааны хар ажлыг компьютерийн тусламжтайгаар шийдэх боломжтойг баталсан юм. Өөрөөр хэлбэл гар ажиллагааг халж компьютерээр материалаа боловсруулан хадгалах эргэлтийн цаг үе ирснийг харуулж байна” (7) хэмээн бичжээ. Тэрбээр багийнхаа хүмүүстэй хамтран өдөр тутмын хэрэглээний 300 000 үгтэй материалыг компьютерээр боловсруулахдаа нийт зургаан жилийг зарцуулсан бөгөөд харин хорин жилийн дараа судалгааны зорилгоо биелүүлж тодорхой үр дүнд хүрсэн байна.

1980-аад оны дунд үе гэхэд хэлний эрдэмтэд компьютерийн мэргэжилтнүүдтэй хамтран хэлний материалыг компьютерийн тусламжтайгаар боловсруулах тал дээр ихээхэн үр дүнд хүрч амжилт олжээ. Ингээд 1990 он гэхэд өмнөх үеийн амжилтдаа тулгуурлан хэлний материалын санг ашиглахад зориулсан хэрэглээний зорилго өөр, төрөл бүрийн програмыг зохиосон байна.

Шинэ зуун эхэлж, техник технологийн дэвшил асар хурдацтай хөгжих болсон өнөө үед хэлний материалын санг өдөр бүр маш их хэмжээгээр  нэмэгдүүлж, энэхүү материалдаа тулгуурлан хэлний бүхий л түвшний судалгааг бодит баримтад түшиглэн судлах болсон төдийгүй нийгмийн хөгжил, техник технологийн хувьсалтай уялдан үүсч буй шинэ үг хэллэг, нэр томьёо зэргийг бүртгэн гаргах, харь хэлний үгийг хэрхэн орчуулж хэрэглэх, идэвхтэй үгсийн хэрэглээг тооцон гаргах, ямар үгсийн хэрэглээ багасч хуучин үг болж байна, энэ нь нийгмийн хөгжил, өөрчлөлттэй  ямар харилцаа холбоотой байна гэх мэтээр хэлний хэрэглээний талын судалгаа хийх тал дээр ихээхэн анхаарах болсон байна.

 

Хэлний материалын сан гэж юу вэ?

 

Сүүлийн үед, тэр тусмаа мэдээллийн салбарт идэвхтэй хэрэглэгддэг үгсийн тоонд database хэмээх үг зүй ёсоор орсон билээ. Энэхүү үгийг монгол хэлэнд хэрхэн хөрвүүлж хэрэглэх талаар тусгайлан бичсэн зүйлгүй ч хүмүүс мэргэжлийн салбартаа тохирох үгээр нь орчуулан бичих, ихэнх тохиолдолд дата бааз гэсэн харь үгээр хэрэглэх нь түгээмэл байна. Харин манай хэлний мэргэжилтнүүд зохиол бүтээлдээ дата хөмрөг, цахим сан гэх мэтээр нэрлэж байгаа хэдий ч нэгдсэн саналд хүрч хараахан чадаагүй байгаа энэ үед бид орчуулгын зарим тольд энэхүү үгийг хэрхэн орчуулсан талаар жишээ татан тайлбарлахыг хичээсэн юм. Тухайлбал Д.Алтангэрэлийн “Англи-Монгол толь” (8)-д data: 1. Мэдээ, тоо баримт. 2. Өгөгдөл. 3. Компьютерээр боловсруулсан буюу хадгалсан мэдээлэл; base: 1. Суурь. 2. Үндэс суурь. 3. Бааз гэж тайлбарлаад database-ийг мэдээллийн сан хэмээн орчуулсан байна. Иймд энэхүү үгийг хэл шинжлэлийн салбарт хэрхэн орчуулж хэрэглэвэл оновчтой вэ? Бидний бодоход “Хэлний мэдээллийн сан” хэмээн орчуулж болох мэт санагдана. Материалын сан гэдэг нь хэлний материалыг хадгалах сан буюу мэдээллийн хөмрөг юм.

Монгол хэлний үгийн сангийн хөмрөгийг бүрдүүлэх ажил эхэлснээр монгол хэлний бүтэц тогтолцоо, үгсийн сангийн холбогдолтой баялаг материал цуглуулан хадгалах, боловсруулах өргөн боломжийг монгол хэл судлаачдад олгох юм. Энэ зуунд компьютерын шинжлэх ухаан хөгжсөөр шинжлэх ухааны маш олон өөр салбаруудтай нягт холбогдсоор байгаа билээ. Ийнхүү хэл шинжлэлийн салбар ухаантай нэгдсэнээр компьютер хэл шинжлэл гэдэг нэгэн шинжлэх ухааны шинэ салбар үүсэн бий болоод хагас зуун жилийн түүхтэй болжээ.

Хэлний хөмрөгийг ашиглан хэлний эх материалд суурилж хэлийг судалдаг ухааныг корпус хэл шинжлэл гэх бөгөөд компьютер хэл шинжлэлийн нэгэн салбар юм. Корпус хэл шинжлэл нь хэлний материалын хөмрөгийг байгуулах (бүрдүүлэх), хэлний материалыг боловсруулах, хэлний материалыг ашиглах, хэлний материалын хэрэглээ зэргийг судалдаг. Иймээс хэлний материалын хөмрөгийг бүрдүүлэх, хөмрөгийн бүтэц, хүрээ хэмжээ, хэрэглээний зорилго зэргээ нарийн тодорхойлох нь хэлний мэдээллийн хөмрөгийг байгуулахад корпус хэл шинжлэлийн тулгамдсан  асуудлын нэг болдог.  Хэлний зүй тогтлыг хэл шинжлэлийн уламжлалт аргаар хэлийг судалсаар ирсэн бөгөөд компьютер хэл шинжлэлийн орчин үеийн арга зүйгээр хэлийг судлах шинэ зууны хэрэгцээ шаардлагаас үүдэн хэлний материалын хөмрөгийг байгуулдаг юм.

Корпус хэл шинжлэлийн үе үеийн эрдэмтэн мэргэдийн анхаарлаа хандуулсаар ирсэн асуудлын нэг нь материалын хөмрөгийг хэрхэн бүрдүүлж боловсруулах тухай асуудал байлаа. Иймээс материалын хөмрөгийг бүрдүүлэхэд эн түрүүнд анхаарах ёстой асуудлын талаар нэрт эрдэмтэн Ж.Кеннеди (9) тодорхой дурьдсан байдаг.

Хөмрөгийг байгуулахдаа судалгааны зорилгоос хамаарч бичгийн болон яриа хэлний материал, мөн найруулгын олон төрөл зүйлийг хамрахаас гадна цаг хугацаа (хам цаг болон цуваа цаг)-ны хувьд ч төрөлжүүлэн бүрдүүлдэг. Хөмрөгт үгсийг хадгалахдаа зүгээр нэг үгсийн цуглуулга биш үгсийн аймгаар таниулж, хэлзүйн хэлбэржилтийн тэмдэгтийг нь хадах зэргээр тусгайлан боловсруулсан мэдээллийг компьютерт ойлгуулсан байдлаар бүрдүүлнэ. Ингэснээр хэлний зүй тогтлыг нарийвчлан судалж (бодит баримт, тоон үзүүлэлтэд түшиглэн судлах) нээн гаргах боломж бий болох төдийгүй цаашид хэл шинжлэлийн олон салбарын хэрэгцээ шаардлагаас үүдэн хөмрөгөө нэмэн баяжуулах, улам боловсронгуй болгох, материалын хөмрөгөөс хэрэгцээт зүйлээ аль болох бага цаг зарцуулан эрж олох зэрэгт зориулсан тусгай программыг найруулах нөхцөл бүрдэх юм.

Өрнө дахинд 1960-аад оны үеэс эхэлж хэлний материалын сан байгуулж, хэлний баялаг материалын суурин дээр хэлийг олон талаас нь судлах ажил өрнөжээ. Тухайлбал, хамгийн анхны хэлний санг 1959 онд “Англи хэлний хэрэглээний судалгаа” (10) нэртэйгээр Лондоны их сургуулийн багш Рэндоф Куирк (11) байгуулсан бөгөөд энэхүү төсөлд хэл шинжлэлийн олон эрдэмтэн мэргэд (12) оролцсон юм.

1960-аад оны эхээр Америкийн Брауны их сургуульд хэлний материалын "Браун сан"(13)-г Хэнри Кучера, Нелсон Франсис нар (14) байгуулжээ. Орчин үеийн америкийн англи хэлийг судлахаар гол зорилтоо болгосон тус хөмрөгийн хэмжээг сая үгээр тогтоосон бөгөөд материалын сангаа хам цагийн зарчмаар, зөвхөн 1961 онд америкчуудын бичиж нийтүүлсэн зохиолуудаас сонгосон 15 төрлийн 500 үлгэр эхээр бүрэлдүүлж, эх бүр нь 2000-аас доошгүй үгтэй байхаар хийжээ. Дэлхий дахинаа алдаршсан энэхүү хөмрөгийг байгуулахад тэд бараг хорь орчим жилийн хөдөлмөрөө зарцуулсан юм. "Браун сан"-гийн бүртгэлийн суурин дээр Брауны их сургуулийн хэвлэлийн газар 1967 онд орчин үеийн англи хэлний үгсийн давтамжийн толийг (15) хэвлүүлж, далаад онд "Браун сан"-гийн хэлний материалд үгсийн аймаг хадах ажил хийгээд үгсийн аймгийг машинаар хадсан оновчтой байдал нь 77 хувьд хүрчээ. нь дэлхий дахинаа анх удаа хэлний материалын сан бүрдүүлэх оролдлого, үүсгэл болж, санг бүрдүүлэх арга онолын талаар шинэ санаа өгсөн бол “Браун сан” нь арга барил, хүрээ хэмжээгээ нарийн тогтоосон дэлхийн анхны системтэй сан болсон юм.

1970-аад оны эхээр Английн Ланкастерийн их сургууль, Ослогийн их сургууль, Бергений их сургуулийн эрдэмтэд хамтран “ЛОБ сан” (16) байгуулсан бөгөөд энэ нь Британи англи хэлийг судлах зорилготой байсан ба энэхүү сангийн материалыг цуваа цагийн зарчмаар, 2000 үгтэй төрөл бүрийн эхийг сонгож сангийнхаа хэмжээг сая үгээр тогтоосон байна. Материалаа сонгохдоо 2000 үгтэй эхийг л авахаар төлөвлөсөн бөгөөд том хэмжээний зарим эхээс тасалж авч бүрдүүлсэн. “ЛОБ сан” (британи англи хэл, цуваа цаг), “Браун сан” (америк англи хэл, хам цаг)-тай эсрэгцсэн мэт байгаа боловч  үндсэндээ адил бөгөөд “Браун сан”-д түшиглэн үгсийн аймгийн тэмдэгт хадаж, энэхүү хадсан оновчтой байдал нь 96-97% хүрсэн байна.

1976 онд Оксфордын их сургуулийн тооцооллын төвийн байгуулсан “Оксфорд эх бичгийн архив” (17) санд 36 өөр хэлний мянга шахам үг, эх материалыг багтаасан олон хэлний, өргөн багтаамжтай сан байгуулсан байна.

“Англи хэлний ярианы хөмрөг” (18) нь английн нэрт эрдэмтэн Ж.Свартвикийн удирдлагаар дэлхийн хамгийн анхны хөмрөг болох Англи хэлний хэрэглээний судалгаа”-ны сангийн ярианы материалд түшиглэн байгуулагдсан бөгөөд материалын хөмрөгөө ярилцлага, сурвалжлага, илтгэл, утасны яриагаар бүрдүүлж, тус бүр 5000 үгтэй 100 эхийг сонгон авч, материалын хэмжээгээ нийт 500 000 үгээр тогтоосон байна.

Өнгөрсөн зууны наяад онд профессор Жойн Синклайр(19)-ын удирдлагаар Английн “Коллинс” хэвлэлийн газар, Бэрминханы их сургууль хамтран “Кобилд сан” (20) -г байгуулсан бөгөөд зорилго нь англи хэлний толь бичиг зохиож байжээ. Ингээд энэхүү ажлынхаа үр дүн болгож 1987 онд “Collins Cobuild English language Dictionary” хэмээх толио хэвлүүлсэн байна.

1991-1994 оны хооронд бүрдүүлсэн “Британы үндэсний сан” (21) нь цаг хугацааны хувьд XX зууны сүүл (1975-1993 он) үеийн англи хэлний бичиг болон ярианы хэлний материалыг багтаасан хэмжээ (материалын сан нь 100 сая үгтэй, нийт хөмрөгийн 90 % нь бичгийн хэлний материал, 10% нь ярианы хэлний материал) болоод  цар хүрээний хувьд дэлхий дээрх хамгийн том хөмрөг байгуулах зорилтыг тавьжээ.

“Англи хэлний хэрэглээний судалгаа” санг байгуулалцсан С.Грийнбаум(22)-ын санаачлагаар бичгийн болон ярианы хэлний материалд суурилсан “Англи хэлний олон улсын сан” (23)-г 1990 онд байгуулсан бөгөөд дэлхий дахинаа хэрэглэж буй англи хэлний харьцуулсан судалгаанд ашиглах зорилготойгоор тус хөмрөгийг бүрдүүлсэн байна. Энэ нь 1989 оноос хойших англи хэлний бичгийн болон ярианы материалыг багтаасан сая үгтэй хөмрөг юм. (24)

Оросын Новосибирскийн их сургуульд байгуулсан хэлний материалын санд 50 шахам хэлний 1000 гаруй төрлийн зохиол, ярианы ба бичгийн хэлний материалыг багтаасан байна. Голландад бас хэлний материалын сангууд байдаг бөгөөд 1,5-3 сая үгтэй тэдгээр санд зөвхөн бичгийн хэлний материалыг оруулсан төдийгүй нутгийн аялгууны сан ч байдаг ажээ.

1980-аад оноос корпус хэл шинжлэл нь ихээхэн хурдацтай хөгжиж, дээр дурьдсанаас гадна “Helsinki corpus of english”, “Sinica corpus”, “The diachronic corpus of present-day spoken english” гэх мэтээр судалгааны зорилгоосоо шалтгаалаад материалын сангийн багтаамж болоод хүрээ хэмжээ,  төрөл  зүйлийн хувьд харилцан адилгүй, тэр мөртөө өөрийн өөрийн өвөрмөц онцлогтой хэлний материалын хөмрөгүүд байгуулагдсан юм. Одоо дэлхий дээр олон төрлийн хэлний хэдэн зуун сан бий болсон бөгөөд эдүгээ ч бий болсоор байна.

 

Хятад дахь компьютер хэл шинжлэл

 

Хятад улсын хувьд хэлний материалын сан байгуулах ажил 1980-аад оноос эхэлсэн байна. Хятад хэлний хөмрөгийг бүрдүүлэх ажил нь эхэн үедээ хятад хэлний бүртгэл, задлалт хийх зорилгоор хийгдэж байсан бол жил ирэх бүр хэрэгцээ шаардлага нь улам нэмэгдэн, хамрах хүрээ хэмжээ нь өргөжих болсон билээ. Тухайлбал, Бээжингийн Хэл соёлын их сургуулийн “Хятад хэлний давтамжийн толь” боловсруулах зорилгоор бүрдүүлсэн, 2000000 үгтэй хөмрөг. Энэхүү хөмрөгийг байгуулснаар нийт үгийн давтамжийг бодон гаргасан, үг нэг бүрийн тархалтын хэмжээ ба хэрэглээний байдлыг бүртгэсэн, хамгийн өндөр давтамжтай үг болоод бага давтамжтай үгсийг ялган гаргасныхаа үндсэн дээр үгийн үеийн тоог тооцсон, өндөр давтамжтай үгийн тархалтын байцаалтын хэмжигдэл ба харалт хэмжигдлийг олсон, ганц үет үгээс олон үет үгийн эзлэх хувийг олсон, үгийн давтамжаар хөмрөг байгуулсан, үгийн хэрэглээний байдлаар хүснэгт зохион хэрэглээнд нь тулгуурлан таваас доош болон арваас доош үгсийн тусгай хүснэгтийг зохион гаргасан төдийгүй хятад хэлний ханз үсгийн дүрсийн ерөнхий тоог олж, хүснэгт хийсэн, тухайн ханзны давтамжийг гаргасан, ханз бүрийн үг бүтэх тоог олсон, ханзны давтамжны хүснэгт хийж, нөхцөлийн хүснэгт зэргийг хийсэн байна. (25)

Бээжингийн Агаар сансрын аялалын дээд сургууль одоогийн хятад хэлний үгсийн давтамжийг бүртгэхийн тулд 20 сая хятад үсгийн багтаамж бүхий хятад хэлний материалын сан байгуулжээ. Тус санд 1919-1949 оны хоорон дахь хэлний материалыг цагийн дарааллаар нь 5 үе шат хувааж, зохиолын төрөл зүйлээр нь арван салбар (нийгмийн шинжлэх ухааны 5 салбар, байгалийн шинжлэх ухааны 5 салбар)-т хуваан ангилсан бөгөөд одоо ч тасралтгүй өргөжүүлсээр байгаа ажээ.

Тайваний Төвийн судалгааны хүрээлэнгийн “Синика хөмрөг” (26) нь үгсийн аймгийг нь бүтэн хадсан дэлхийн анхны хөмрөг болсон бөгөөд материалын сан нь 5 сая үгтэй. “Хятад хэлний таван газар орны хам цагийн хөмрөг”-ийг Хонг-Конгийн их сургуулийн байгуулсан хөмрөг бөгөөд материал бүрдүүлэхдээ хам цагийн материалыг сонгон авах тал дээр ихээхэн анхаарсан байна.

Өнгөрсөн зууны наяад оны дунд үеэс эхлэн Өвөрмонголын Их Сургуулийн Монгол хэл судлах газар монгол хэлний мэдээлэл боловсруулах ажлыг эхэлжээ. Тэд хөмрөгөө бүрдүүлэхдээ монгол бичгээрх эх материалаа өөрсдийн зохиосон латин галигаар хөрвүүлж бүрдүүлсэн байна. Ажлын явц нь үсэг боловсруулалт, үг боловсруулалт, өгүүлбэр боловсруулалт, цогцолбор боловсруулалт буюу эх боловсруулалт гэсэн үе шаттай байна. 1983 онд "Монголын нууц товчоо"-г компьютерт оруулсан бөгөөд түүний дараагаар "Дундад зууны монгол хэлний хөмрөг" ба "Одоо үеийн монгол хэл бичгийн хөмрөг" байгуулжээ. Энэ шатанд монгол хэлийг латинчлан тэмдэглэх аргыг боловсруулж, үгийн үндэс ба хувилгах дагаврын хооронд, хос язгуурт үгийн хооронд, газрын нэр, хүний нэрийн өмнө тэмдэг тавих ажил хийжээ. Одоо үеийн монгол хэлний үгсийн давтамжийн бүртгэл хийж энэ ажлынхаа дүнгээр "Одоо үеийн монгол хэлний үгсийн давтамжийн толь" хэвлүүлсэн байна.

Мөн "Монгол хэл зүйн сураг зангийн толь"-ийг боловсруулж буй бөгөөд энэ толь нь монгол хэлний үг өгүүлбэрийг автоматаар задлах, автоматчилал үүсгэхийн тулд боловсруулж байгаа, одоо үеийн монгол хэлний байнга хэрэглэгдэх үгсийн хэл зүйн чадамжийг бодитойгоор тусган энэ талын хэрэглээний программд үг зүйн хэлбэр, өгүүлбэр зүйн чадамж, найруулгын онцлог, зөв бичих дүрэм зэргийн мэдээлэл өгөхийг зорьсон машин толь юм.

Түүнчлэн монгол хэлний хөмрөг байгуулахтай холбоотойгоор нэлээд олон төрлийн программыг боловсруулан гаргаад байгаа бөгөөд тойм төдий дурьдвал “Монгол хэлний материал ашиглах хамаарах программ MATE.AHP (27)”, “Одоо үеийн монгол хэлний дата хөмрөгийн программ” (28) зэргийг нэрлэж болох юм.

ӨМИС-ийн эрдэмтэн багш нарын хийж буй судалгаанууд нь монгол хэлний мэдээллийн хөмрөгийг байгуулан бүрдүүлж, боловсруулахад тулгарч байгаа асуудлуудыг нэг бүрчлэн онолын үндэстэй, бодит тоон баримтад тулгуурлан судалж буй нь монгол хэл шинжлэлийн цаашдын хөгжилд ихээхэн хувь нэмэр үзүүлэх нь эргэлзээгүй юм. Ялангуяа Өвөрмонголын Их сургуулийн багш доктор, профессор Чойжинжав, доктор, профессор С.Насан-Урт, доктор, профессор Хуашабу зэрэг олон эрдэмтэд энэ тал дээр ихээхэн анхаарч, зохиол бүтээлүүдээ туурвисаар байна.

 

Монгол дахь компьютер хэл шинжлэл

 

Бидний лавтай мэдэж байгаагаар монгол хэл судлалын хүрээнд компьютер хэрэглэн хэлийг судлах ажлын эхлэл нь толь бичиг судлалын салбарт анх нэвтэрсэн гэж хэлж болно. Үүнд эрдэмтэн Ф.Д.Лессингийн “Монгол-Англи толь” (29), АНУ-ын нэрт монгол судлаач Жон Крюгерийн нэгэн бүтээл (30) болон Германы монголч эрдэмтэн, доктор, профессор Ханс Петер Фийцегийн боловсруулсан “Монголын нууц товчооны тонгоруу толь” болон “Орчин цагийн монгол хэлний тонгоруу толь” зэргийг дурьдаж болно.

Эдүгээ Монгол улсын хувьд энэхүү ажлын эхлэл нь тавигдаад удаагүй байгаа хэдий ч холбогдох их дээд сургууль, хүрээлэн, төвүүд энэ талаар багагүй зүйлийг хийжээ. Тухайлбал, сүүлийн үед МУИС-ийн Монгол хэл, соёлын сургуулийн багш нар “Монгол кирилл бичгийг хөрвүүлэх программ” (31) -ийг боловсруулж байна. Мөн МУИС-ийн дэргэдэх “Компьютер хэл шинжлэлийн судалгааны төв” (32) нь 2007 оны 6 сард байгуулагдсан бөгөөд тус төвийн зорилго нь шинэ зууны технологийг (хэлийг компьютерээр боловсруулах арга техник) монгол хэл судлалын салбарт нэвтрүүлэх, компьютер хэл шинжлэлийн судалгааг хөгжүүлэх гэх мэтээр шат дараалан төлөвлөсөн ажлуудыг хийж гүйцэтгэж байна. Тэдний судалгааны ажил нь хэлний цөм болсон үгийн шинжилгээнээс эхэлж, үүний дараагаар өгүүлбэр зүйн боловсруулалт, түүний дүрмийн загварчлал, утга ба агуулга зүйн боловсруулалт зэрэг маш системтэй их ажил хийж машин орчуулгын түвшинд хүрэх зорилготой юм.

 ШУТИС-ийн Холбоо, мэдээлэл технологийн сургууль нь “Монгол хэлний яриа таних систем”-ийг боловсруулж эхэлжээ. Хүмүүнлэгийн ухааны их сургуулийн багш нар “Монгол хэлний машинан боловсруулалт”-ын талаар судалгааны ажлаа эхлээд байгаа төдийгүй “Өргөтгөсөн хайлттай вэб сайт байгуулж, монгол хэлний сурвалжийн сангийн боловсруулалт” хийхээр төлөвлөөд байна.

ШУА-ийн Хэл зохиолын хүрээлэн нь 2003 онд “Спикер групп” компанитай хамтран монгол хэлний үг үсгийн алдаа хянах “Ангууч” программыг боловсруулан гаргасан билээ. Тус хүрээлэнд 1970-аад оноос хойш цуглуулан “Монгол хэлний дэлгэрэнгүй тайлбар толь” (1-5 боть)-д ашигласан 5 сая орчим карт хадгалагдсаар байгаа билээ. Ийнхүү монголын утга зохиолын хэлний материалыг хэвлэмэл байдлаар хадгалах ажлыг халж, шинэ зууны технологийн хөгжилтэй уялдуулан монголын утга зохиолын хэлний материалыг цахим байдлаар компьютерт хадгалах, зөвхөн хадгалаад зогсохгүй эрдэмтэн судлаачдын хүсэл сонирхолд нийцсэн, судлаачдын судалгааны хэрэглэгдэхүүнээ бүрдүүлэхэд зарцуулдаг цаг, гар ажиллагааг хөнгөвчилж тухайн сангаас хүссэн зүйлээ сонгож, хайж, эрж олж чадахуйц программыг боловсруулан гаргах зорилготой байна. Энэхүү ажлын эхлэл болгож өнөөдрийн байдлаар эрт эдүгээгийн монголын уран зохиолын 500 орчим нэгж зохиолуудыг бүрдүүлээд байгаа бөгөөд ӨМИС-ийн Монгол судлалын дээд сургуулийн эрдэмтэн багш (доктор, профессор Насан-Урт зэрэг) нартай хамтран Ч.Лодойдамбын “Тунгалаг Тамир” романы үгсийн аймаг, хэлзүйн хэлбэржилтийг хадах программыг боловсруулж байна. Энэ мэтээр монгол хэл судлалын салбарт компьютер нэвтрүүлэх, хэлний материалыг компьютерээр боловсруулах, цаашлаад олон төрлийн зорилготой төрөл бүрийн орчуулгын болон хөрвүүлгийн программ, хэлний төвшин бүрийн судалгаанд зориулсан тусгайлсан программ, машин орчуулгын программ боловсруулах зэрэг монгол хэлний программ хангамжийн талаар их сургууль, хүрээлэн, төвүүд тус тусдаа хэдий боловч компьютер хэл шинжлэлийг хөгжүүлэх нэгэн зорилгын дор нэгдэн ажиллаж байгаа билээ.

Эдүгээ нийгмийн амьдралын бүх салбарт мэдээллийн хэрэгцээ ихсэж нийгмийн баялгийн гол эх үүсвэрийн нэг болсоор байна. Гэхдээ энэ чиглэлээр Монголд зарим нэг байгууллага, хувь хүмүүс шинжилгээ, судалгааны ажил хийж байгаа ч бусад орны түвшинтэй харьцуулахад чамлалттай байна. Монгол хэлний материалыг ашигладаг программ хангамжийг хөгжүүлэхээс гадна хэлийг компьютерээр боловсруулах шаардлагатай байна.

 

 

Цаашдын зорилт

 

Олон жилийн баялаг түүхтэй монгол хэл судлалыг орчин үеийн технологитой уялдуулах, монголын компьютер хэл шинжлэлийн арга техникийг боловсруулж хөгжүүлэх нь цаг үеийн шаардлага, хэрэгцээ юм. Монгол хэлний үг, өгүүлбэрийг компьютерийн түвшинд таниулан ойлгуулснаар монгол хэлний зүй тогтол, өвөрмөц үзэгдлүүдийг орчин үеийн арга, технологийн туслалцаатайгаар нээн харуулж судлах боломжийг бий болгох нь цаашдын судалгааны ажлын чухал үр дүн юм.

Монгол хэл шинжлэлийн судалгаанд компьютер хэл шинжлэлийн аргыг нэвтрүүлснээр монгол хэлний зүй тогтол, өвөрмөц үзэгдлүүдийг орчин үеийн арга, технологийн туслалцаатайгаар нээн харуулж судлах боломжийг бий болгоно. Энэ нь уламжлалт хэл шинжлэлд тэр бүр илэрч харагддаггүй байсан хэлний онцлог үзэгдлүүдийг тодорхой тооны хэлээр, өөрөөр хэлбэл нүдэнд харагдаж гарт баригдтал илрүүлж харуулах бололцоо олгож байгаад гол ач холбогдол нь оршино.

Монгол хэлний мэдээллийг боловсруулах салбарт хийгдэж байгаа шинжилгээ судалгааны ажил нэмэгдэж байгаа ч гадаадын өндөр хөгжилтэй орнуудыг хөгжлөөрөө гүйцэхэд цаг хугацаа, хөрөнгө мөнгө, боловсон хүчин асар их хэрэгтэй байна. Мэдээллийн хурд минутаар бус секундээр хэмжигдэх болсон өнөө үед бид хэл судлалын салбарт гарч буй шинэ ололт нээлт, дэвшилтэт зүйлтэй танилцах боломж дээр дурьдсан хэмжээгээр нэмэгдэж байгаа нөхцөлд бид судалгааны эх хэрэглэгдэхүүн, материалаа хүний хүчээр, гар ажиллагаагаар бүрдүүлэн судална гэдэг хатуухан хэлэхэд “Үхэр тэргээр туулай гүйцэхтэй адил” мэт бодогдоно. Иймд цаг алдалгүй хэлний материалын хөмрөгөө бүрдүүлэн, эрдэмтэн мэргэдээ үнэн зөв, бодит мэдээллээр хангах нь монгол хэл судлалын олон салбарын хувьд авч хэлбэл “далайд дусал”-ын нэмэр мэт санагдах хэдий ч шинжилгээ судалгаа гэдэг эх хэрэглэгдэхүүн, бодит материалгүйгээр амжилтад хүрэх боломж үгүйгээс үзвэл энэ нь тун чухал, хойшлуулж боломгүй асуудал мэт санагдана.

 

Ишлэл

 

1.       Corpus linguistics буюу хэлний материалын сангийн data base (хөмрөг) юм.

2.       The new Encyclopaedia Britannica, Volume 3, 15th edition 2005, p. 506

3.       Association for Literary and Linguistic Computing” товчилсон нэр нь ALLC (http://www.allc.org/)

4.       Мөн “Компьютер хэл шинжлэлийн холбоо”-ны (Association for Computational Linguistics-ACL) “Компьютер хэл шинжлэл” (Computational linguistics) сэтгүүлийг дурьдаж болно. Тус сэтгүүл 1974 оноос эдүгээг хүртэл гарч байна.

5.       Govindankutty (1973)

6.       Dravidain

7.       Kennedy G. An Introduction  to Corpus Linguistics-Addison Wesley Longman Limited, 1998. p.1-12

8.       Д.Алтангэрэл “Англи-Монгол толь”, УБ 2002 х.96, х.32

9.       Kennedy G. An Introduction  to Corpus Linguistics- Addison Wesley Longman Limited, 1998. p.1-12

10.    “The Survey of English Usage”, товчилсон нэр нь SEU

11.    Randoph Quirk

12.    Valerie Adams, David Crystal, Sidney Greenbaum, Geoffrey Leech, Jan Svartvik нар

13.    Brown corpus

14.    Henry Kucera, W.Nelson Francis “Brown corpus” (The Brown University Standard Corpus of Present-Day American English)

15.    Computational Analysis of Present-Day American English

16.    Lancaster Oslo Bergen Corpus, товчилсон нэр нь LOB

17.    “Oxford text Archive”

18.    London Lund Corpus of spoken English, товчилсон нэр нь LLC

19.    Join Sinclair

20.    Cobuild corpus

21.    British national corpus, товчилсон нэр нь BNC

22.    Greenbaum, Sidney

23.    International corpus of english, товчилсон нэр нь ICE

24.    Greenbaum, Sidney. The  international Corpus of English”- English Today 28. p.3-7

25.    Хуан Чэн Нин, Ли Жүанз, “Корпус хэл шинжлэл”. Бээжин 2007

26.    Sinica Balanced Corpus

27.    MATE.AHP нь монгол хэл судлаачдад өндөр хурдаар оновчтой бөгөөд найдвартай жишээ баримт олгож, судлаачдын материал сонгох, задлах, эмхэтгэх, хуулахдаа зарцуулдаг цаг болон хүчийг их хэмжээгээр хэмнэж, судалгааных нь ахицыг түргэтгэн, цаашлаад хэлний эрдэмтдийн чанартай судалгаа хийхэд нь зарим талаар бололцоо олгохыг үндсэн зорилтоо болгожээ.

28.    Одоо үеийн монгол хэлний дата хөмрөгийн програм-MDB монгол хэл бичгийн судлалд зориулсан тусгай программ юм.

29.    F.D.Lessing “Mongolian-English dictionary”, Berkeley 1960, 1216 p.

30.    John R.Krueger “Mongolian Epigraphical dictionary in reverse listing” [Arabic and Altaic series 88], Indiana University publications, Bloomington 1967

31.    Мөнх-Учрал Э. “Монгол кирилл бичгийг хөрвүүлэх программын системд хэлний зүгээс холбогдох асуудлыг шийдвэрлэсэн аргын тухай”, Acta Mongolica, 2006, Volume 6(267), х.141-154

32.    http://www.crlp.num.edu.mn


Лавлах материал

 

1. Насан-Урт.С, Монгол хэл бичгийн сураг занги боловсруулах онол практикийн зарим асуудал, УБ 2004
2. Насан-Урт.С, Монгол хэлний сураг занги шийдвэрлэлтийн өгүүллийн түүвэр. Хөх хот 2006.6
3. Чойжинжав нар., “
Одоо үеийн монгол хэлний дата хөмрөгийн тухай”- Өвөрмонголын их сургуулийн эрдэм шинжилгээний сэтгүүл, 1992, №1, х.63-74

4. Хуашабу, "Монгол хэлний материал ашиглаж хамаарах программ - МАТЕ.АНР"
– Өвөрмонголын их сургуулийн эрдэм шинжилгээний сэтгүүл (хятад хэвлэл), 1985, №2, х.7-23

5. Хуашабу, “Одоо үеийн монгол хэлний дата хөмрөгийн програм”-Өвөрмонголын их сургуулийн эрдэм шинжилгээний сэтгүүл (хятад хэвлэл), 1992. №2, х.68-86
6.
Цэнгэлт.Д, Сураг занги шийдвэрлэлтэд зориулсан монгол хэлний хэвшмэл холбоо үгийн тухай судлал, Хөх хот 2001
7. Төрбат.Т, Эрдэнэбатхаан.Т, Монгол хэлний машинан боловсруулалтын тулгамдсан асуудал, түүнийг шийдэх арга замын тухайд, Хүмүүнлэгийн ухааны их сургуулийн эрдэм шинжилгээний бичиг, Боть 1 (06), УБ 2004

8. Адилбат.Л, Бодит хэлний компьютер дүрслэлийн хэрэглүүрийн хөгжлийн чиг хандлагаас, Хүмүүнлэгийн ухааны их сургуулийн эрдэм шинжилгээний бичиг, Боть 1 (06), УБ 2004
9.
Мөнх-Учрал.Э, Монгол, кирилл бичгийг хөрвүүлэх программын системд хэлний зүгээс холбогдох асуудлыг шийдвэрлэсэн аргын тухай, “Acta Mongolica” МУИС-ийн эрдэм шинжилгээний бичиг, 6 (267), УБ 2006
10. Амарсанаа.Г, “Монгол хэлний тэмдэглүүр” магистрын ажил, МУИС, УБ 2006
Энхсаруул.Г, “Монгол авиан тоон загварчлал” бакалаврын диплом, МУИС, УБ 2007
11. Сүхбат.Б, “Монгол хэлний ярианы дифон синтезийн судалгаа ба боловсруулалт” – ШУТИС-д докторын зэрэг горилсон нэг сэдэвт бүтээл, УБ 2007
12.
Одбаяр.Ч, “Монгол хэлний үг зүйн суурь загварчлал” магистрын ажил, МУИС, УБ 2008
13. Монгол бичгийн хэвлэмэл материалыг таних, МУИС – Математик компьютерийн сургууль, УБ 2008

 

“Хэл зохиол судлал” 1 (33), 2008 сэтгүүлийн 188-197-р тал, Т.Пүрэвсүрэнгийн хамт бичив.

Бичсэн: Боролзой | цаг: 12:57 | Эрдэм шинжилгээний өгүүлэл
Холбоос | email -ээр явуулах | Сэтгэгдэл(3)
Сэтгэгдэл:


Өөрийн аягаар уугаад байвал
хөгжихгүй хаяа том болохын тулд
хүнийхээс бас уухал хэрэгтэй
Бичсэн: Зочин цаг: 21:53, Saturday 10 July 2010 | Холбоос | |


Database
Энэ шал утга авцалдаагүй юмаа
өгөгдлийн бааз л гэж орчуулдаг ш дээ
Бичсэн: Зочин (зочин) цаг: 21:51, Saturday 10 July 2010 | Холбоос | |


Hi, Энэ хаяг дээр англи-монгол орчуулгын програм ажиллаж байна. Хэлний судалгаа, мэдээллийн сан, дүрэм бүгдийг нь нэг цогц болгожээ. Үнэгүй ашиглах цагт нь туршиж үзээрэй
Бичсэн: Bataa (зочин) цаг: 23:06, Friday 18 December 2009 | Холбоос | |


Сэтгэгдэл бичих
idiomatic-dormant