#! /bin/gawk -f # Last edited on 2004-01-30 06:39:06 by stolfi # Tries to convert from the codes used in the # HTML Transliterated Quran (HAR encoding) # to hexbytes (lowercase byte of Unicode in hexadecimal and Ťť). # These rules are mustly guesses, and almost surely wrong. /^[ ]*[\#@]/ { print; next; } // { lin = $0; # Map tabs and non-breaking spaces to plain space: gsub(/[\011\240]/, " ", lin); # Delete boldface (silent/spoken) markup: gsub(/[Ss][Tt][Rr][Oo][Nn][Gg]>/, "B>", lin); gsub(/<[\/]*[bB]>/, "", lin); # Replaces ... (and its equivalent eversion) by .... gsub(/<[uU]><[iI]>/, "", lin); gsub(/<\/[iI]><\/[uU]>/, "", lin); gsub(/<[iI]><[uU]>/, "", lin); gsub(/<\/[uU]><\/[iI]>/, "", lin); # Normalize and to upper case: gsub(/[uU]>/, "U>", lin); gsub(/[iI]>/, "I>", lin); # Decode character by character. Note that consecutive characters # with the same markup (, , or ) may have been # fused. This loop breaks such groups into individual characters. change = 1; while(change) { tmp = gensub(/<([UIZ])>([tT][hH])([adhstnlADHSTNL ])/, "<\\1>\\2<\\1>\\3", "g", lin); change = (tmp != lin); lin = tmp; if (! change) { tmp = gensub(/<([UIZ])>([tT])([adstnlADSTNL ])/, "<\\1>\\2<\\1>\\3", "g", lin); change = (tmp != lin); lin = tmp; } if (! change) { tmp = gensub(/<([UIZ])>([adhsnlADHSNL ])([adhstnlADHSTNL ])/, "<\\1>\\2<\\1>\\3", "g", lin); change = (tmp != lin); lin = tmp; } } gsub(/<[UIZ]> <\/[UIZ]>/, " ", lin); # Protect "/" in closing HTML tags: gsub(/<[\/]/, "<@", lin); # ------------------------------------------------------------ # Compress each HAR code to "ŤmZť" where "m" is the markup [uUzZnN] # and "Z" is the original 1- or 2-letter code: # Put a "×" in front of each unconverted character: lin = gensub(/(.)/, "×\\1", "g", lin); # Undo it for spaces, digits, punctuation: lin = gensub(/[×]([- 0-9,._])/, "\\1", "g", lin); # Undo it for HTML markup tags: lin = gensub(/[×][<][×]([a-zA-Z])[×][>]/, "<\\1>", "g", lin); lin = gensub(/[×][<][×][@][×]([a-zA-Z])[×][>]/, "<@\\1>", "g", lin); # Compress two-letter codes with HTML markup: lin = gensub(/[<]([UIZ])[>][×]([Tt])[×]([h])[<][@][UIZ][>]/, "Ť\\1\\2\\3ť", "g", lin); # Compress single-letter codes with HTML markup: lin = gensub(/[<]([UIZ])[>][×]([AaDdHhSsTtNnLl])[<][@][UIZ][>]/, "Ť\\1\\2ť", "g", lin); # Compress double-letter codes, plain (fake an "N" markup): lin = gensub(/[×]A[×]A/, "ŤNAAť", "g", lin); lin = gensub(/[×]([Ee])[×]e/, "ŤN\\1eť", "g", lin); lin = gensub(/[×]([Oo])[×]o/, "ŤN\\1oť", "g", lin); lin = gensub(/[×]([gktsGKTS])[×][h]/, "ŤN\\1hť", "g", lin); # ompress single-letter codes, plain (fake an "N" markup): lin = gensub(/[×]([\/abdfhijklmnoqrstuwyzABDFHIJKLMNOQRSTUWYZ])/, "ŤN\\1ť", "g", lin); # ------------------------------------------------------------ # Now map compressed HAR codes "ŤZť" to Unicode hexbyte "Ťxxť". # Uppercase: gsub(/[Ť]UL[ť]/, "^Ť**ť{ul}", lin); # Possible typo? gsub(/[Ť]UN[ť]/, "^Ť**ť{un}", lin); # Possible typo? gsub(/[Ť]UA[ť]/, "^Ť4Eť", lin); gsub(/[Ť]NB[ť]/, "^Ť28ť", lin); gsub(/[Ť]NT[ť]/, "^Ť2Ať", lin); gsub(/[Ť]NTh[ť]/, "^Ť2Bť", lin); gsub(/[Ť]NJ[ť]/, "^Ť2Cť", lin); gsub(/[Ť]UH[ť]/, "^Ť2Dť", lin); gsub(/[Ť]NKh[ť]/, "^Ť2Eť", lin); gsub(/[Ť]ND[ť]/, "^Ť2Fť", lin); gsub(/[Ť]UTh[ť]/, "^Ť30ť", lin); gsub(/[Ť]NR[ť]/, "^Ť31ť", lin); gsub(/[Ť]NZ[ť]/, "^Ť32ť", lin); gsub(/[Ť]NS[ť]/, "^Ť33ť", lin); gsub(/[Ť]NSh[ť]/, "^Ť34ť", lin); gsub(/[Ť]US[ť]/, "^Ť35ť", lin); gsub(/[Ť]UD[ť]/, "^Ť36ť", lin); gsub(/[Ť]UT[ť]/, "^Ť37ť", lin); gsub(/[Ť]ZTh[ť]/, "^Ť38ť", lin); gsub(/[Ť]NGh[ť]/, "^Ť3Ať", lin); gsub(/[Ť]NF[ť]/, "^Ť41ť", lin); gsub(/[Ť]NQ[ť]/, "^Ť42ť", lin); gsub(/[Ť]NK[ť]/, "^Ť43ť", lin); gsub(/[Ť]NL[ť]/, "^Ť44ť", lin); gsub(/[Ť]NM[ť]/, "^Ť45ť", lin); gsub(/[Ť]NN[ť]/, "^Ť46ť", lin); gsub(/[Ť]NH[ť]/, "^Ť47ť", lin); gsub(/[Ť]NOo[ť]/, "^Ť48ť", lin); gsub(/[Ť]NW[ť]/, "^Ť48ť", lin); gsub(/[Ť]NEe[ť]/, "^Ť4Ať", lin); gsub(/[Ť]NY[ť]/, "^Ť4Ať", lin); gsub(/[Ť]NA[ť]/, "^Ť4Eť", lin); gsub(/[Ť]NO[ť]/, "^Ť4Eť", lin); gsub(/[Ť]NU[ť]/, "^Ť4Fť", lin); gsub(/[Ť]NI[ť]/, "^Ť50ť", lin); # Lowercase: gsub(/[Ť]Ul[ť]/, "Ť**ť{ul}", lin); # Possible typo? gsub(/[Ť]Un[ť]/, "Ť**ť{un}", lin); # Possible typo? gsub(/[Ť]N[\/][ť]/, "Ť21ť", lin); gsub(/[Ť]Ua[ť]/, "Ť4Eť", lin); gsub(/[Ť]Nb[ť]/, "Ť28ť", lin); gsub(/[Ť]Nt[ť]/, "Ť2Ať", lin); gsub(/[Ť]Nth[ť]/, "Ť2Bť", lin); gsub(/[Ť]Nj[ť]/, "Ť2Cť", lin); gsub(/[Ť]Uh[ť]/, "Ť2Dť", lin); gsub(/[Ť]Nkh[ť]/, "Ť2Eť", lin); gsub(/[Ť]Nd[ť]/, "Ť2Fť", lin); gsub(/[Ť]Uth[ť]/, "Ť30ť", lin); gsub(/[Ť]Nr[ť]/, "Ť31ť", lin); gsub(/[Ť]Nz[ť]/, "Ť32ť", lin); gsub(/[Ť]Ns[ť]/, "Ť33ť", lin); gsub(/[Ť]Nsh[ť]/, "Ť34ť", lin); gsub(/[Ť]Us[ť]/, "Ť35ť", lin); gsub(/[Ť]Ud[ť]/, "Ť36ť", lin); gsub(/[Ť]Ut[ť]/, "Ť37ť", lin); gsub(/[Ť]Zth[ť]/, "Ť38ť", lin); gsub(/[Ť]NAA[ť]/, "Ť39ť", lin); gsub(/[Ť]Ngh[ť]/, "Ť3Ať", lin); gsub(/[Ť]Nf[ť]/, "Ť41ť", lin); gsub(/[Ť]Nq[ť]/, "Ť42ť", lin); gsub(/[Ť]Nk[ť]/, "Ť43ť", lin); gsub(/[Ť]Nl[ť]/, "Ť44ť", lin); gsub(/[Ť]Nm[ť]/, "Ť45ť", lin); gsub(/[Ť]Nn[ť]/, "Ť46ť", lin); gsub(/[Ť]Nh[ť]/, "Ť47ť", lin); gsub(/[Ť]Nw[ť]/, "Ť48ť", lin); gsub(/[Ť]Noo[ť]/, "Ť48ť", lin); gsub(/[Ť]Ny[ť]/, "Ť4Ať", lin); gsub(/[Ť]Nee[ť]/, "Ť4Ať", lin); gsub(/[Ť]Na[ť]/, "Ť4Eť", lin); gsub(/[Ť]No[ť]/, "Ť4Eť", lin); gsub(/[Ť]Nu[ť]/, "Ť4Fť", lin); gsub(/[Ť]Ni[ť]/, "Ť50ť", lin); # OK, now get rid of the uppercase marker . # (Not worth the trouble to take it into account below.) gsub(/[\^][Ť]/, "Ť", lin); # Restore "/" in HTML closing tags: gsub(/<[@]/, "/, "\n\n", lin); gsub(/<\/[pP]>/, "\n\n", lin); # Check for leftover HAR letters: lin = gensub(/[×]([a-zA-Z])/, "Ť**ť{\\1}", "g", lin); # Remove "×" marks before other chars: gsub(/[×]/, "", lin); print lin; } function data_error(msg) { printf "%s:%s: %s\n", FILENAME, FNR, msg > "/dev/stderr"; abort = 1; exit abort; }