Cronfa Electroneg o Gymraeg (CEG)

Cronfa ddata eirfaol o filiwn o eiriau sy'n cyfrif amlder defnydd geiriau yn y Gymraeg

Ellis, N. C., O'Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N.  (2001)


English Version

CRYNODEB BYR


   Mae hwn yn ddadansoddiad amlder geiriau o 1,079,032 o eiriau o ryddiaith Gymraeg ysgrifenedig, a seiliwyd ar 500 o samplau o tua 2000 o eiriau yr un. Fe'u detholwyd o ystod gynrychioliadol o destunau rhyddiaith Gymraeg gyfoes (o 1970 ymlaen yn bennaf). Y nod oedd cynnig rhywbeth cyffelyb i ddadansoddiad Kucera a Francis o Saesneg Americanaidd, a'r corpws LOB o Saesneg Prydeinig. Y disgwyl oedd y byddai corpws a ddadansoddwyd fel hyn yn cynnig offer ymchwil ar gyfer nifer o ddisgyblaethau academaidd:

  • seicoleg a seicoieithyddiaeth
  • plant yn caffael ail iaith
  • ieitheg gyffredinol
  • ieitheg y Gymraeg Cyfoes, gan gynnwys dadansoddi llenyddol.

    Roedd y sampl yn cynnwys:

  • deunyddiau o feysydd nofelau a straeon byrion
  • ysgrifennu crefyddol
  • llenyddiaeth plant (ffeithiol a dychmygol)
  • deunyddiau ym meysydd addysg, gwyddoniaeth, busnes, gweithgareddau hamdden, etc.
  • darlithoedd cyhoeddus
  • papurau newydd a chylchgronau - cenedlaethol a lleol
  • atgofion
  • ysgrifennu academaidd
  • deunyddiau gweinyddu cyffredinol (yn llythyrau, adroddiadau,

    Dadansoddwyd y corpws i gynhyrchu cyfrifon amlder geiriau yn eu ffurf grai yn ogystal â chyfrifon o lemata lle mae pob arwydd wedi ei ddad-dreiglo a'i dagio yn ôl ei wreiddyn. Rhydd y dadansoddiad yma hefyd wybodaeth sylfaenol am amlder y gwahanol ddosbarthiadau geiriol, ffurfdroadau, treigliadau a nodweddion gramadegol eraill.

    Dylai unrhyw erthyglau a seiliwyd ar ddefnydd y gronfa ddata ddyfynnu:

Cronfa Electroneg o Gymraeg (CEG): A 1 million word lexical database and frequency count for Welsh. [On-line]

Available: www.bangor.ac.uk/canolfanbedwyr/ceg.php.en

(i'r brig)

CEFNDIR


    Cafodd y project ei ariannu yn ystod y flwyddyn academaidd 1993/4 gyda grant o £21K a ddyfarnwyd gan Gyngor Cyllido Addysg Uwch Cymru i Ellis, O'Dochartaigh & Hicks o Uned TG (IT), Adran Gymraeg ac Ysgol Seicoleg, Prifysgol Cymru, Bangor. Fe ddechreuodd yr ymchwilwyr ar y gwaith ym mis Hydref 1993, ac ar ôl cytuno yr ystod samplau gyda'r Athro Gwyn Thomas o'r Adran Gymraeg, aethpwyd ati i gasglu'r ystod gofynnol o destunau. Y bwriad gwreiddiol oedd derbyn y deunyddiau ar ffurf electronig gan gyhoeddwyr Cymraeg a chyrff eraill, er enghraifft awdurdodau lleol, adrannau'r llywodraeth a phapurau bro (papurau newydd sy'n cael eu cynhyrchu'n lleol). Fodd bynnag, canfuwyd yn fuan ei bod hi'n amhosib casglu'r ehangder deunyddiau angenrheidiol ar ffurf electronig. Roedd hyn yn bennaf oherwydd nad oedd cyhoeddwyr Cymraeg ar y pryd yn cadw copïau archif cyfrifiadurol o lyfrau roedden nhw efallai wedi'u cyhoeddi drwy ddulliau electronig.

    O dan yr amgylchiadau yma, ar ôl cael tua 200 o samplau y gellid eu defnyddio gan gyrff amrywiol, penderfynwyd mewnbynnu'r gweddill drwy gael eu teipio a thrwy ddefnyddio sganiwr OCR. Yr ymchwilydd oedd yn gyfrifol am wirio'r copi teipiedig a chywiro'r gwallau yr oedd y meddalwedd OCR yn eu creu. Roedd yn gwneud hyn gyda chymorth y gwiriwr sillafu Cymraeg, CySill, oedd yn cael ei ddatblygu ar y pryd. Fe gafodd costau ychwanegol yma eu hysgwyddo gan Uned TG Gymraeg, Bangor.

    Pan ddeuai'r deunydd i law yn uniongyrchol gan gyhoeddwyr neu gan awduron unigol, gofynnwyd am ganiatâd i gynnwys y data yn nadansoddiad y project. Roedd hyn gyda'r ddealltwriaeth y byddai cais ffurfiol yn cael ei wneud i ddeiliaid yr hawlfraint pe dymunid eu rhyddhau i gynulleidfa ehangach rywbryd yn y dyfodol. Mewn achosion lle'r oedd samplau o weithiau cyhoeddedig yn cael eu cymryd naill ai trwy deipio neu drwy OCR, ni ofynnwyd hyd yma am ganiatâd ffurfiol i gael eu defnyddio. Y rheswm am hyn yw ein bod ni'n tybio bod modd ystyried y samplau o 2000 o eiriau yn y rhan fwyaf o achosion fel “delio teg” at ddibenion academaidd o dan y Deddfau Hawlfraint. Fe fyddai unrhyw ddefnydd cyhoeddus o'r deunyddiau yma'n golygu gofyn am ganiatâd ffurfiol deiliaid yr hawlfreintiau.

    Penderfynwyd defnyddio'r meddalwedd dadansoddi oedd wedi cael ei ddatblygu ar gyfer y gwiriwr sillafu'r Gymraeg. Roedd y gwaith yma, ar gyfer Bwrdd yr Iaith Gymraeg, yn mynd ymlaen ar y pryd yn yr Ysgol Seicoleg. Ar ôl ei ddiwygio, roedd y gwiriwr sillafu'n cynnwys set o algorithmau lemataidd ar gyfer delio â'r iaith yn gyfrifiadurol a theimlid y byddai modd eu cymhwyso efallai ar gyfer lemateiddio samplau testunau CEG. Gallai wedyn brosesu a dadansoddi'r testunau mewn ffordd ryngweithiol. Gofynnai hyn am y gallu i gyflwyno'r testun gwreiddiol ar sgrîn i'w archwilio gan ymchwilydd a chynnig bocsys deialog rhyngweithiol i ddatrys dwy broblem sylfaenol sef ymddangosiad geiriau neu eirffurfiau oedd ddim yn bod yng ngeiriadur y gwiriwr sillafu a homograffau. Daethpwyd dros yr ail anhawster drwy drefnu i'r meddalwedd adnabod lema naill ai drwy ddileu terfyniad neilltuol a/neu drwy ddad-dreiglo gair a pharhau i gyfnewid terfyniadau a threigladau cychwynnol posib (mewn cyfuniad â lemata eraill) i chwilio am homograffau posib. Cyflwynid pob ffurf bosib ar y gair i'r ymchwilydd ar y sgrîn, gyda'r testun gwreiddiol yn weladwy, i hyrwyddo'r dewis. Roedd ymddangosiad gair neu eirffurf dieithr hefyd yn cynhyrchu bocs deialog a rôi gyfle i'r ymchwilydd ychwanegu geiriau o'r fath at eiriadur defnyddwyr yn ogystal â rhoi cyfle iddo eu hymgorffori yn y ‘ffeiliau wedi'u tagio' a gynhyrchwyd o bob sampl o destun.

    Fe weithiodd y prif ymchwilydd ar 350 o'r 500 sampl, a chafodd ymchwilydd rhan-amser ei gyflogi, drwy'r Uned TG Gymraeg, i ddadansoddi 150 sampl. Cymerid tua awr ar gyfartaledd i ddadansoddi pob un yn ei dro. Roedd yn nes at ddwy awr pan roedd angen ailddarllen a chywiro testun teipiedig neu destun a sganiwyd gan ddefnyddio OCR.



 

FFORMATIAU FFEILIAU A CHONFENSIYNAU CODIO NODAU

   Mae'r holl ffeiliau yn ffeiliau Windows gyda <CR><LF> yn cael eu defnyddio i wahanu llinellau.


 


DISGRIFIAD O'R FFEILIAU TESTUN

    Ceir manylion y 500 sampl o destun yn y ffeiliau sy'n dilyn. Ynddynt, rhestrir rhif y ffeil, categori'r testun, y teitl, yr awdur a'r dyddiad.

    Mae modd mewnlwytho'r data disgrifiadol yn y fformatiau sy'n dilyn:

  • HTML
  • Tab heb ei amffinio
  • Dalen waith Excel
    Defnyddiwyd y codau categorïol canlynol wrth ymdrin â'r testun::
Rh Ff
Gwasg - Gwyddonol G Gw Press - Scientific
Gwasg - Adroddiad G A Press - Report
Gwasg - Golygyddol G G Press - Editorial
Gwasg - Adolygiad G Ad Press - Review
Gwasg - Llythyrau G Ll Press - Letters
Plant - Ffeithiol P Ff Factual - Children
Ysgrythurol Y Scriptural
Bro a Bywyd Gwerin B Community Life
Gweinyddol - Adroddiad Gw Ad Administrative - Report
Gweinyddol - Llythyrau Gw Ll Administrative - Letters
Gweinyddol - Cofnodion/cytundebau Gw C Administrative - Minutes/contracts
Academaidd A Academic
Hunangofiant / Cofiant/ Dyddiaduron / Atgofion H Biography/ Diaries/Memories
Sgyrsiau/pigion S Discussions/ Highlights
Medrau a Diddordebau M Skills and Interests
Rhyddiaith Ddychmygol Rh Dd Fiction
Nofelau N Novels
Straeon Byrion SB Short Stories
Plant - Nofel PN Children's Novel
Plant - Straeon PS Children's Stories
Dyddiadur Dychmygol D Fictitious Diaries
Ysgrifau YS Articles/ Essays


Y FFEILIAU DATA - crai ac wedi eu tagio


 
 

Y 500 sampl destunol gwreiddiol o tua 2000 o eiriau yr un:

  • Y ffeiliau ASCII gwreiddiol  (wedi'u sipio)  (2.1Mb)


    Lema [tab] Gair craidd [tab]Rhan Ymadrodd [ [tab] Treiglad - [os yw'n bod]] [tab] Llinell Rhif

    Yn dilyn ceir enghraifft o frawddeg o un o destunau'r sampl:

 

a [74.2.2]
ydi [74.2.3]
hynny [74.2.4]
'n [74.2.5]
golygu [74.2.6]
fod meddal
y DefArt
rhai pron
dagreuol adj
yn prep
ein pron
plith nm
yn YnPred
iach CompAdj
na conj
'r DefArt
rhai pron
sych adj
? punct

    Yr ydym o'r farn bod y corpws testun hwn yn ddefnyddiol ar gyfer:

  • dadansoddi patrymau brawddegol rhyddiaith Gymraeg
  • dadansoddi cyd-ddigwyddiadau o ran lemata unigol a rhannau ymadrodd gramadegol o fewn testunau
  • dadansoddiadau ieithyddol pellach gan ymchwilwyr arbenigol ym maes cystrawen y Gymraeg a chaffael iaith plant.
Ond, bydd yn rhaid i ymchwilwyr ystyried rhai cyfyngiadau a fu ar ansawdd y data, yn benodol - cywirdeb rhai o'r tagiau lema a ddifethwyd gan homograffi geirffurfiau. Disgrifir y cyfyngiadau hyn yn yr adran sy'n dilyn.
 
  • Pob Ffeil Wedi'u tagio  (a'u sipio) [gyda'r meysydd heb eu cyfyngu gan dabiau] - 8 Mb
     
    • 1*.tag (tua 2 Mb yr un)
    • 2*.tag
    • 3*.tag
    • 4*.tag


ANSAWDD Y DATA


    Credwn fod cywirdeb y geirffurfiau crai yn y gronfa ddata a'u cyfrifon yn weddol uchel. Bydd pa wallau bynnag (o ran sillafu neu deipio) oedd yna yn y samplau gwreiddiol i'w gweld hefyd yn y corpws. Diau i ni hefyd gyflwyno ambell wall ychwanegol a methu canfod rhai gwallau wrth fewnbynnu'r deunydd. Ond gwnaed pob ymdrech i gadw'r nifer yn isel.

    Mae ansawdd y tagio'n fater gwahanol eto. Roedd yr anawsterau sy'n dilyn yn ein llesteirio: problemau cyfraddau homograffi uchel, lemateiddiwr cydweddu patrymluniau cyfyng ei reolau, a'r angen am ddaddansoddiad gan ymchwilydd medrus.

    Cyfunent i greu nifer nid ansylweddol o wallau tagio. Mae dadansoddiad rhagarweiniol o 5% o'r corpws yn dangos bod yna gyfradd gwallau o 4% + /- 3% ond ni ddosbarthwyd y gwallau tagio hyn yn gyfartal o gwmpas y gronfa ddata. Er enghraifft, mae gwallau mewn tagio yn, bod/fod, ac a, sef y geiriau sy'n ymddangos amlaf, yn llawer mwy cyffredin na gwallau ymhlith geiriau dosbarth agored. Gan hynny, tra bod y gyfradd gwallau gyffredinol efallai'n 4%, mae'r gyfradd gwallau categorïol lawer yn llai.
   

    Nid oes gennym yr adnoddau i gywiro'r cam-godiadau yma. Yn ogystal â nodi'r gwallau ar allbrint o'r ffeiliau allbwn, byddai angen i gywiriadau gael eu hysgrifennu'n ôl yn y ffeiliau. Amcangyfrifir y byddai cywiro'r set gyflawn yn fanwl yn cymryd tua dwy flynedd. Ar ôl ceisio sicrhau'r adnoddau i wneud hynny, ac aros yn rhy hir, penderfynwyd rhyddhau'r gronfa ddata fel y mae hi am fod hynny'n well na dim.

    Serch hynny, dylai ymchwilwyr nodi'r cyfyngiadau yn ansawdd y data, yn enwedig felly cywirdeb rhai o'r tagiau lema.

    Credwn bod ein cyfrif o'r geirffurfiau crai yn gywir iawn.

    Mae Cyfrifon y Lema gyda'r dadansoddiad o ffurfdroadau a threigladau yn gywir tua 96% o'r amser gyda mwyafrif y problemau'n ymwneud â geiriau'r dosbarth caeëdig, aml eu defnydd.
 
 


CANLYNIADAU'R PROSESU

 CYFRIFON GEIRFFURFIAU CRAI

    Seiliwyd y cyfrifon geiriau ar yr union eirffurfiau sy'n digwydd. Mae'r geiriau yma'n cynnwys:
  • sillafiadau sy'n cynrychioli ffurfiau tafodieithol
  • sillafiadau anffurfiol o ffurfiau Cymraeg (gan amlaf yn dilyn argymhellion Cymraeg Byw, er nad yw'n safon sy'n cael ei defnyddio'n gyffredinol ar gyfer ysgrifennu anffurfiol)
  • geiriau tramor (yn neilltuol o'r Saesneg)
  • geiriau Cymraeg wedi'u sillafu'n anghywir (hynny yw cambrintiadau yn y testunau gwreiddiol).

    Cyfanswm y geirffurfiau yn y corpws yw 1,079,032.

    Cyfanswm y mathau o eirffurfiau unigol yw 37,195.

    Y geirffurfiau crai amlaf eu deunydd yw:

55588 yn  . 3821 cael
45945 . 3754 yw
33327 . 3546 wrth
33231 . 3545 ni
32573 'r  . 3463 hyn
26927 . 3023 na
15888 ar  . 2870 o+l
14990 ei  . 2721 hynny
14845 'n  . 2646 fe
14523 yr  . 2613 er
11785 ac  . 2594 neu
9922 oedd  . 2585 nid
9338 bod  . 2542 at
9056 mae  . 2511 sy
7751 am  . 2417 'w
7093 wedi  . 2401 hi
6118 ond  . 2360 dim
5568 un  . 2278 mynd
5415 'i  . 2240 byddai
5294 eu  . 2160 gyda
4991 gan  . 2137 yng
4988 fel  . 2110 iawn
4578 mewn  . 2066 pob
4149 a+  . 2065 lle
4142 roedd  . 2027 pan

    Ar eithaf arall yr ystod amlder, mae yna gynffon hir iawn o ffurfiau sy'n ymddangos unwaith, gyda 44% o'r cyfanswm o fewn y grw^p yma. Rhyngddynt, mae nifer y geiriau sy'n ymddangos unwaith, ddwywaith neu deirgwaith yn 64% o gyfanswm y geiriau (37,195). Fel y gellid disgwyl, mae nifer fawr o r geiriau anaml yma: yn fenthyciadau o dramor, yn fenthyciadau o dramor, yn gamsillafiadau, yn ffurfiau tafodieithol, yn ffurfiau eraill ar sillafiadau amrywiol, ac yn rhifau. Ran amlaf, mae'r rhaglen ddadansoddi'n gwahaniaethu rhwng y categorïau yma (camsillafiadau, geiriau tramor, sillafiadau anffurfiol), ond byddai angen gwirio'r cofnodion ymhellach i fod yn fanwl gywir.
 

Geiriau sy'n ymddangos unwaith - 16,316 :  44% o'r geiriau unigol
 Geiriau sy'n ymddangos ddwywaith - 5,013 :  13% o'r geiriau unigol
 Geiriau sy'n ymddangos deirgwaith - 2,644 :     7% o'r geiriau unigol

 
 


 

 CYFRIFON LEMA - gyda dadansoddiadau o ffurfdroadau a threigladau


    Defnyddiwyd y meddalwedd lemateiddio i ddad-dreiglo a dad-ffurfdroi geirffurfiau er mwyn eu holrhain yn ôl i'w lema. Ceir enghreifftiau eglurhaol o'r dadansoddiad hwn yn y tabl isod:
 

ceg 118 ceg n 118 ceg 109 nf ceg 22 nf
cheg 21 nf llaes
geg 56 nf meddal
ngheg 10 nf trwynol
cegau 9 npl cegau 9 npl
rhodio 16 rhodio vb 16 rhodia 2 vbf rhodia 1 vbf :3
rodia 1 vbf :3 meddal
rhodiai 1 vbf rodiai 1 vbf :10 meddal
rhodio 12 vb rhodio 7 vb
rodio 5 vb meddal
rhodiwn 1 vbf rhodiwn 1 vbf :4.1

    Ymddengys y lema ceg 118 o weithiau - fel enw'n unig. Digwydd fel enw unigol benywaidd (ceg) 109 o weithiau ac fel yr enw lluosog (cegau) ar 9 achlysur. Fe'i ceir fel ffurf unigol (heb ei dreiglo) 22 o weithiau, gyda threiglad llaes 21 o weithiau , gyda threiglad meddal 56 o weithiau , a 10 gwaith gyda threiglad trwynol.

    Ymddangosodd y lema rhodio 16 o weithiau, bob tro fel berf. Digwydd ddwywaith yn y trydydd person unigol presennol (rhodia) (unwaith mewn ffurf heb ei dreiglo ac unwaith gyda threiglad meddal). Digwydd unwaith fel y ffurf dreigledig, trydydd person unigol amherffaith (rodia), 12 gwaith fel y berfenw rhodio (7 gwaith heb ei dreiglo a 5 gwaith wedi ei dreiglo'n feddal), ac unwaith yn y person cyntaf lluosog presennol (rhodiwn). Ceir llawer o ffurfiau ar y ferf yn y Gymraeg. Gwelir rhestr gyflawn o godau ffurfiau'r ferf yn yr adran sy'n dilyn.
 

CODAU FFURFIAU'R FERF

    Ceir tabl o godau ffurfiau'r ferf isod:

1 af  amser presennol person cyntaf unigol
2 amser presennol ail berson unigol
3 amser presennol trydydd person unigol
4 wn  amser presennol person cyntaf lluosog
5 wch amser presennol ail berson lluosog
6 ant  amser presennol trydydd person lluosog
7 ir  amser presennol amhersonol
8 it  amser amherffaith person cyntaf unigol
9 et  amser amherffaith ail berson unigol
10 ai  amser amherffaith trydydd person unigol
11 em  amser amherffaith person cyntaf lluosog
12 ech  amser amherffaith ail berson lluosog
13 ent  amser amherffaith trydydd person lluosog
14 id amser amherffaith amhersonol
15 ais amser gorffennol person cyntaf unigol
16 aist  amser gorffennol ail berson unigol
17 odd  amser gorffennol trydydd person unigol
18 asom  amser gorffennol person cyntaf lluosog
19 asoch  amser gorffennol ail berson lluosog
20 asant  amser gorffennol trydydd person lluosog
21 wyd  amser gorffennol amhersonol
22 aswn  gorberffaith person cyntaf unigol
23 asit  gorberffaith ail berson unigol
24 aset  gorberffaith ail berson unigol
25 asai  gorberffaith ail berson unigol
26 asem  gorberffaith person cyntaf lluosog
27 asech  gorberffaith ail berson lluosog
28 asent  gorberffaith trydydd person lluosog
29 asid  gorberffaith amhersonol
30 ed  amhersonol gorchmynnol
31 wyf  dibynnol person cyntaf unigol
32 ych  dibynnol ail berson unigol
33 dibynnol trydydd person unigol
34 om  dibynnol person cyntaf lluosog
35 och  dibynnol ail berson lluosog
36 ont  dibynnol trydydd person lluosog
37 er  dibynnol ail berson unigol
38 es  amser gorffennol person cyntaf unigol
39 est  amser gorffennol ail berson unigol
40 ith  Anffurfiol trydydd person unigol
41 iff  Anffurfiol Dyfodol trydydd person unigol
42 on  Anffurfiol Gorffennol trydydd person lluosog
43 an Anffurfiol Dyfodol trydydd person lluosog

 
 

    Mae'r ffeil, Lemma Counts with Analysis, wedi'i gwahanu gan dabiau a gellir ei mewnforio i Excel. Yno mae'n hawdd ei thrin i gael amrywiaeth eang o ddadansoddiadau. Cynhyrchodd un enghraifft, a seiliwyd ar drefniad o dreigliadau cychwynnol y canlyniadau sy'n dilyn:
 

TREIGLIADAU CYCHWYNNOL

Gall geiriau Cymraeg gymryd un o bedwar math o dreiglad cychwynnol morffoffonemig. O edrych am amlder cymharol y defnydd a wneir ohonynt yn y sampl ceir y canlyniadau canlynol:

 

Treiglad Meddal 134,349 12.45%
Treiglad Llaes     9,123   0.85%
Treiglad Trwynol     5,667   0.53%
calediad h     1,990   0.19%

 

Llwytho'r Geirffurfiau

 Ffeil sip yn cynnwys: (890Kb)

  • Cyfrifon geiriau (amlder) – cyfrifon geirffurfiau crai wedi'u trefnu yn ôl y defnydd a wneir ohonynt. Cychwynnir gyda'r rhai amlaf eu defnydd.
  • Cyfrifon geiriau (alffa). Cyfrifon geirffurfiau crai wedi'u dosbarthu yn nhrefn yr wyddor
  • Cyfrifon Lema gyda Dadansoddiad – cyfrifon Lemata, gyda ffurfiau ffurfdroedig, rhannau ymadrodd a threigladau
     

DEFNYDDIO'R ADNODD


  Cynhyrchwyd y deunyddiau yma gyda grant fechan a roddwyd i gynnal ymchwil academaidd. Mae croeso i chi eu defnyddio at unrhyw ddiben ag eithrio diben masnachol. Cynhyrchwyd y dadansoddiadau yma'n ddidwyll hyd eithaf ein gallu o gofio'r adnoddau cyfyngedig. Fel y nodwyd uchod, fe ddylai unrhyw ddefnyddiwr fod yn ymwybodol o'r gwallau yn y tagio. Ni ellir felly ysgwyddo cyfrifoldeb am unrhyw ganlyniadau andwyol a allai fod yn seiliedig ar y rhain.

    Croesawn ymchwil pellach naill ai i ymhelaethu ar neu gywiro'r disgrifiad.



Ellis, N. C., O'Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N.  (2001). Cronfa Electroneg o Gymraeg (CEG): Cronfa ddata eirfaol, miliwn o eiriau, sy'n cyfrif amlder defnydd geiriau yn y Gymraeg: . [On-line]

Available: www.bangor.ac.uk/canolfanbedwyr/ceg.php.en