One option would be to ask the model to predict yes/no for each of the 00 piano keys, at every musical time step. However, since each individual key is silent for the great majority of the time, it would be very difficult for a model to learn to ever risk predicting "yes" for a note. I offer two different possible solutions for this problem. In language models, we often work at either the word-level or character-level. Similarly, for music generation, I offer either chordwise or notewise levels.
Bir seçenek, modelden her müzikal zaman adımında 00 piyano tuşunun her biri için evet / hayır tahmin etmesini istemektir. Ancak, her bir anahtar zamanın büyük çoğunluğu için sessiz olduğundan, bir modelin bir not için "evet" tahminini riske atmayı öğrenmesi çok zor olacaktır. Bu sorun için iki farklı olası çözüm öneriyorum. Dil modellerinde genellikle ya kelime düzeyinde ya da karakter düzeyinde çalışırız. Benzer şekilde, müzik üretimi için akorsel veya not olarak seviyeler sunuyorum.