Jump to content

Vārdu (un to sinonīmu) ranžēšana pēc to parādīšanās biežuma tekstā


PlayingTheSaint
 Share

Recommended Posts

Problēma ir tajā, ka teksts sastāv gan no latviešu, gan krievu, gan latviešu man-nav-garumziimju, gan translīta valodām.
Latviešu tekstam es noņemtu garumzīmes un mīkstinājuma zīmes
Un mappotu ii > i, sh > s, lai tiktu galā ar man-nav-garumziimju valodu.
Bet kā vislabāk rīkoties ar krievu un translītu?
Pieņemu, ka es varu pārtulkot vārdus kirilicā uz latviešu.
Translītu var pārveidot uz kirilicu  un tad pārtulkot, bet tur arī ir daudz veidu kā var būt rakstīts, piemēram, cilvēki, lai uzrakstītu š kirilicā, var izmantot gan sh, gan w.
Kaut cik pareiza pieeja, lai sakārtotu datus?
Pēc tam ir doma meklēt sinonīmus izmantojot mašīnapmācību.

Pavediena doma ir mudināt jūs uzrakstīt metodes, kuras es pēcāk varu gūglē patstāvīgi apgūt. Līdz šim tikai vienu reizi esmu pielietojis ml, lai noteiktu parādības notikšanas varbūtību. Šis uzdevums, kuram pats pieteicos, šķiet laba motivācija apgūt ko jaunu. Koda fragmentus it kā nevajag, bet ja tas, ko maina, tad izmantošu python vidi (pandas, scikit-learn)

edit: dzeltenā pīle

Labots - PlayingTheSaint
Link to comment
Share on other sites

Atšķirību kritēriji, definējot ievades valodu pirms procesa.

Transiltiem ir daudz nekur nedefinētu variantu. Cilvēks var vienā teikumā izmantot vairākas it kā "" translita ""ķipa metodes, DDD. Līdz ar to *minēšana* ir daudz sarežğītāka kā sākumā liekas. 

Analīzi uzsākt vismaz lielākam savienojumam kopā. 

Piemeram, nevis burti 123456789101112131415, ķip, bet iekļaut kritērojos vismaz 36 burtu kopu pēc kārtas. 

Tad "*minēšanas*" process labāk pakļausies loğiskajai analīzei. 

Tulkošanai tāpat arī nepieciešama konteksta analīze, nevis tulkot pa vārdam.

 

 

Labots - rnxx
Link to comment
Share on other sites

Par cik ir reāli iespējams, ka persona lietos pat 2 translit variantus un to miksējumu vienā teikumā, savukārt teikumi ir vairāki, minēšanas opciju bāzi varētu pamodelēt uz heuristics   + loop up tables, iesākumam. 

 

Piem, viņi var uzrakstīt suka

                                         cyk* 

Ar latīņu klaviatūru. 

Ir vārdi, ko viņi var rakstīt ar 4 variantiem, plus teikumos var būt 4 - 10 vārdi. 

 

Ortogrāfijas vismaz kaut kādu principu obligāta ievērošana projektā ir paredzēta vai nav? Ja nav jātulko, tikai jāranžē, tad, protams, vieglāks uzdevums. 

 

 

Labots - rnxx
Link to comment
Share on other sites

Izveido kontu, vai pieraksties esošajā, lai komentētu

Jums ir jābūt šī foruma biedram, lai varētu komentēt tēmas

Izveidot jaunu kontu

Piereģistrējies un izveido jaunu kontu, tas būs viegli!

Reģistrēt jaunu kontu

Pierakstīties

Jums jau ir konts? Pierakstieties tajā šeit!

Pierakstīties tagad!
 Share

×
×
  • Izveidot jaunu...