android s2t wip

Mateusz Kopciński · Mateusz Kopciński · commit 97feca15d3c5 · 2025-03-04T11:17:31.000+01:00
diff --git a/android/gradle/wrapper/gradle-wrapper.properties b/android/gradle/wrapper/gradle-wrapper.properties
@@ -1,6 +1,7 @@
+#Mon Mar 03 14:10:10 CET 2025
 distributionBase=GRADLE_USER_HOME
 distributionPath=wrapper/dists
-distributionUrl=https\://services.gradle.org/distributions/gradle-8.5-bin.zip
+distributionUrl=https\://services.gradle.org/distributions/gradle-8.6-bin.zip
 networkTimeout=10000
 validateDistributionUrl=true
 zipStoreBase=GRADLE_USER_HOME
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/SpeechToText.kt b/android/src/main/java/com/swmansion/rnexecutorch/SpeechToText.kt
@@ -1,54 +1,93 @@
 package com.swmansion.rnexecutorch
 
+import android.util.Log
 import com.facebook.react.bridge.Promise
 import com.facebook.react.bridge.ReactApplicationContext
 import com.facebook.react.bridge.ReadableArray
-import com.swmansion.rnexecutorch.models.speechToText.WhisperDecoder
+import com.swmansion.rnexecutorch.models.speechToText.BaseS2TDecoder
+import com.swmansion.rnexecutorch.models.speechToText.BaseS2TModule
+import com.swmansion.rnexecutorch.models.speechToText.Moonshine
+import com.swmansion.rnexecutorch.models.speechToText.MoonshineEncoder
+import com.swmansion.rnexecutorch.models.speechToText.Whisper
 import com.swmansion.rnexecutorch.models.speechToText.WhisperEncoder
-import com.swmansion.rnexecutorch.models.speechToText.WhisperPreprocessor
 import com.swmansion.rnexecutorch.utils.ArrayUtils
 import com.swmansion.rnexecutorch.utils.ETError
+import org.pytorch.executorch.EValue
+import org.pytorch.executorch.Tensor
 
-class SpeechToText(reactContext: ReactApplicationContext) :
-  NativeSpeechToTextSpec(reactContext) {
-  private var whisperPreprocessor = WhisperPreprocessor(reactContext)
-  private var whisperEncoder = WhisperEncoder(reactContext)
-  private var whisperDecoder = WhisperDecoder(reactContext)
-  private var START_TOKEN = 50257
-  private var EOS_TOKEN = 50256
+class SpeechToText(reactContext: ReactApplicationContext) : NativeSpeechToTextSpec(reactContext) {
+
+  private lateinit var speechToTextModule: BaseS2TModule;
 
   companion object {
     const val NAME = "SpeechToText"
   }
 
-  override fun loadModule(preprocessorSource: String, encoderSource: String, decoderSource: String, promise: Promise) {
+  override fun loadModule(modelName: String, modelSources: ReadableArray, promise: Promise): Unit {
+    Log.i("rn_executorch", "encoder: ${modelSources.getString(0)!!}, decoder: ${modelSources.getString(1)!!}")
+    Log.i("rn_executorch", "${modelName}")
+    try {
+      if(modelName == "moonshine") {
+        this.speechToTextModule = Moonshine(modelName)
+        this.speechToTextModule.encoder = MoonshineEncoder(reactApplicationContext)
+      }
+      if(modelName == "whisper") {
+        this.speechToTextModule = Whisper(modelName)
+        this.speechToTextModule.encoder = WhisperEncoder(reactApplicationContext)
+      }
+      this.speechToTextModule.decoder = BaseS2TDecoder(reactApplicationContext)
+    } catch(e: Exception){
+      Log.i("rn_executorch", "${e.message}")
+    }
+
+
     try {
-      this.whisperPreprocessor.loadModel(preprocessorSource)
-      this.whisperEncoder.loadModel(encoderSource)
-      this.whisperDecoder.loadModel(decoderSource)
+      Log.i("rn_executorch", "encoder: ${modelSources.getString(0)!!}, decoder: ${modelSources.getString(1)!!}")
+      Log.i("rn_executorch", this.speechToTextModule.toString())
+      this.speechToTextModule.loadModel(modelSources.getString(0)!!, modelSources.getString(1)!!)
       promise.resolve(0)
+      Log.i("rn_executorch", "loaded")
     } catch (e: Exception) {
+      Log.i("rn_executorch", "error")
       promise.reject(e.message!!, ETError.InvalidModelSource.toString())
     }
   }
 
   override fun generate(waveform: ReadableArray, promise: Promise) {
-    val logMel = this.whisperPreprocessor.runModel(waveform)
-    val encoding = this.whisperEncoder.runModel(logMel)
-    val generatedTokens = mutableListOf(this.START_TOKEN)
+    val encoding = this.speechToTextModule.encode(waveform)
+    val generatedTokens = mutableListOf(this.speechToTextModule.START_TOKEN)
     var lastToken = 0
     Thread {
-      while (lastToken != this.EOS_TOKEN) {
-        this.whisperDecoder.setGeneratedTokens(generatedTokens)
-        lastToken = this.whisperDecoder.runModel(encoding)
+      while (lastToken != this.speechToTextModule.EOS_TOKEN) {
+        lastToken = this.speechToTextModule.decode(generatedTokens, encoding)
         emitOnToken(lastToken.toDouble())
         generatedTokens.add(lastToken)
       }
-      val generatedTokensReadableArray = ArrayUtils.createReadableArrayFromIntArray(generatedTokens.toIntArray())
+      val generatedTokensReadableArray =
+        ArrayUtils.createReadableArrayFromIntArray(generatedTokens.toIntArray())
       promise.resolve(generatedTokensReadableArray)
     }.start()
   }
 
+  override fun encode(waveform: ReadableArray, promise: Promise) {
+    promise.resolve(this.speechToTextModule.encode(waveform).toDoubleList())
+  }
+
+  override fun decode(prevTokens: ReadableArray, encoderOutput: ReadableArray, promise: Promise): Unit {
+    val size = encoderOutput.size()
+    val inputFloatArray = FloatArray(size)
+    for (i in 0 until size) {
+      inputFloatArray[i] = prevTokens.getDouble(i).toFloat()
+    }
+    val encoderOutputEValue = EValue.from(Tensor.fromBlob(inputFloatArray, longArrayOf(1,
+      (size/288).toLong(), 288)))
+    val preTokensMArray = mutableListOf<Int>()
+    for (i in 0 until prevTokens.size()) {
+      preTokensMArray.add(prevTokens.getLong(i).toInt())
+    }
+    promise.resolve(this.speechToTextModule.decode(preTokensMArray, encoderOutputEValue))
+  }
+
   override fun getName(): String {
     return NAME
   }
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/BaseS2TDecoder.kt b/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/BaseS2TDecoder.kt
@@ -0,0 +1,31 @@
+package com.swmansion.rnexecutorch.models.speechToText
+
+import com.swmansion.rnexecutorch.models.BaseModel
+import org.pytorch.executorch.EValue
+import com.facebook.react.bridge.ReactApplicationContext
+import org.pytorch.executorch.Tensor
+
+class BaseS2TDecoder(reactApplicationContext: ReactApplicationContext): BaseModel<EValue, Int>(reactApplicationContext)  {
+  private lateinit var generatedTokens: MutableList<Int>
+
+  fun setGeneratedTokens(tokens: MutableList<Int>) {
+    this.generatedTokens = tokens
+  }
+
+  override fun runModel(input: EValue): Int {
+    val tokensEValue = EValue.from(Tensor.fromBlob(this.generatedTokens.toIntArray(), longArrayOf(1, generatedTokens.size.toLong())))
+    return this.module
+      .forward(tokensEValue, input)[0]
+      .toTensor()
+      .dataAsLongArray[0]
+      .toInt()
+  }
+
+  override fun preprocess(input: EValue): EValue {
+    TODO("Not yet implemented")
+  }
+
+  override fun postprocess(output: Array<EValue>): Int {
+    TODO("Not yet implemented")
+  }
+}
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/BaseS2TModule.kt b/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/BaseS2TModule.kt
@@ -0,0 +1,44 @@
+package com.swmansion.rnexecutorch.models.speechToText
+
+import android.util.Log
+import com.facebook.react.bridge.ReadableArray
+import com.swmansion.rnexecutorch.models.BaseModel
+import org.pytorch.executorch.EValue
+import org.pytorch.executorch.Module
+import java.net.URL
+
+
+abstract class BaseS2TModule(modelName: String) {
+  lateinit var encoder: BaseModel<ReadableArray, EValue>
+  lateinit var decoder: BaseS2TDecoder
+  abstract var START_TOKEN:Int
+  abstract var EOS_TOKEN:Int
+
+  fun encode(input: ReadableArray): EValue {
+    return this.encoder.runModel(input)
+  }
+
+  fun decode(prevTokens: MutableList<Int>, encoderOutput: EValue): Int {
+    this.decoder.setGeneratedTokens(prevTokens)
+    return this.decoder.runModel(encoderOutput)
+  }
+
+  fun loadModel(encoderSource: String, decoderSource: String) {
+    Log.i("rn_executorch", "encoder $encoderSource ${URL(encoderSource).path} ${Module.load(URL(encoderSource).path)}")
+    try {
+
+      Log.i("rn_executorch", "encoder loaded decoder")
+      Log.i("rn_executorch", "encoder loaded decoder: ${this.decoder}")
+      Log.i("rn_executorch", "encoder loaded encoder: ${this.encoder}")
+      Log.i("rn_executorch", "encoder loaded decoder: ${this.decoder}")
+    } catch(e: Exception){
+      Log.i("rn_executorch", "error: ${e.message}")
+    }
+
+    this.encoder.loadModel(encoderSource)
+    Log.i("rn_executorch", "decoder $decoderSource ${URL(decoderSource).path}")
+    this.decoder.loadModel(decoderSource)
+    Log.i("rn_executorch", "both")
+  }
+
+}
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/Moonshine.kt b/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/Moonshine.kt
@@ -0,0 +1,8 @@
+package com.swmansion.rnexecutorch.models.speechToText
+
+class Moonshine(
+  modelName: String,
+) : BaseS2TModule(modelName) {
+  override var START_TOKEN = 1
+  override var EOS_TOKEN = 2
+}
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/MoonshineEncoder.kt b/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/MoonshineEncoder.kt
@@ -0,0 +1,38 @@
+package com.swmansion.rnexecutorch.models.speechToText
+
+import android.util.Log
+import com.facebook.react.bridge.ReactApplicationContext
+import com.facebook.react.bridge.ReadableArray
+import com.swmansion.rnexecutorch.models.BaseModel
+import com.swmansion.rnexecutorch.utils.ArrayUtils.Companion.createDoubleArray
+import com.swmansion.rnexecutorch.utils.ArrayUtils.Companion.createFloatArray
+import org.pytorch.executorch.EValue
+import org.pytorch.executorch.Tensor
+
+class MoonshineEncoder(reactApplicationContext: ReactApplicationContext) :
+  BaseModel<ReadableArray, EValue>(reactApplicationContext) {
+
+  override fun runModel(input: ReadableArray): EValue {
+    val size = input.size()
+    val inputFloatArray = FloatArray(size)
+    for (i in 0 until size) {
+      inputFloatArray[i] = input.getDouble(i).toFloat()
+    }
+    val preprocessorInputShape = longArrayOf(1, size.toLong())
+    val doubleInput = createDoubleArray(input);
+    Log.i("rn_executorch", "${EValue.from(Tensor.fromBlob(doubleInput, preprocessorInputShape)).isTensor}")
+    Log.i("rn_executorch", "${EValue.from(Tensor.fromBlob(doubleInput, preprocessorInputShape)).isDoubleList}")
+    Log.i("rn_executorch", "${doubleInput} shape: ${Tensor.fromBlob(doubleInput, preprocessorInputShape).shape().size}")
+
+    val hiddenState = this.module.forward(EValue.from(Tensor.fromBlob(doubleInput, preprocessorInputShape)))
+    return hiddenState[0]
+  }
+
+  override fun preprocess(input: ReadableArray): EValue {
+    TODO("Not yet implemented")
+  }
+
+  override fun postprocess(output: Array<EValue>): EValue {
+    TODO("Not yet implemented")
+  }
+}
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/Whisper.kt b/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/Whisper.kt
@@ -0,0 +1,8 @@
+package com.swmansion.rnexecutorch.models.speechToText
+
+class Whisper(
+  modelName: String,
+): BaseS2TModule(modelName) {
+  override var START_TOKEN = 50257
+  override var EOS_TOKEN = 50256
+}
diff --git a/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/WhisperEncoder.kt b/android/src/main/java/com/swmansion/rnexecutorch/models/speechToText/WhisperEncoder.kt
@@ -1,22 +1,43 @@
 package com.swmansion.rnexecutorch.models.speechToText
 
 import com.facebook.react.bridge.ReactApplicationContext
+import com.swmansion.rnexecutorch.utils.ArrayUtils
+import com.facebook.react.bridge.ReadableArray
 import com.swmansion.rnexecutorch.models.BaseModel
+import com.swmansion.rnexecutorch.utils.STFT
 import org.pytorch.executorch.EValue
 import org.pytorch.executorch.Tensor
 
 class WhisperEncoder(reactApplicationContext: ReactApplicationContext) :
-  BaseModel<EValue, EValue>(reactApplicationContext) {
-    private val encoderInputShape = longArrayOf(1L, 80L, 3000L)
+  BaseModel<ReadableArray, EValue>(reactApplicationContext) {
 
-  override fun runModel(input: EValue): EValue {
+  private val fftSize = 512
+  private val hopLength = 160
+  private val stftFrameSize = (this.fftSize / 2).toLong()
+  private val stft = STFT(fftSize, hopLength)
+
+  override fun runModel(input: ReadableArray): EValue {
     val inputEValue = this.preprocess(input)
     val hiddenState = this.module.forward(inputEValue)
     return hiddenState[0]
+    // val size = input.size()
+    // val inputFloatArray = FloatArray(size)
+    // for (i in 0 until size) {
+    //   inputFloatArray[i] = input.getDouble(i).toFloat()
+    // }
+    // val stftResult = this.stft.fromWaveform(inputFloatArray)
+    // val numStftFrames = stftResult.size / (this.fftSize / 2)
+    // val preprocessorInputShape = longArrayOf(numStftFrames.toLong(), (this.fftSize / 2).toLong())
+    // val hiddenState = this.module.forward(EValue.from(Tensor.fromBlob(stftResult, preprocessorInputShape)))
+    // return hiddenState[0]
   }
 
-  override fun preprocess(input: EValue): EValue {
-    val inputTensor = Tensor.fromBlob(input.toTensor().dataAsFloatArray, this.encoderInputShape)
+  override fun preprocess(input: ReadableArray): EValue {
+    val waveformFloatArray = ArrayUtils.createFloatArray(input)
+
+    val stftResult = this.stft.fromWaveform(waveformFloatArray)
+    val numStftFrames = stftResult.size / this.stftFrameSize
+    val inputTensor = Tensor.fromBlob(stftResult, longArrayOf(numStftFrames, this.stftFrameSize))
     return EValue.from(inputTensor)
   }
 
diff --git a/examples/computer-vision/ios/Podfile.lock b/examples/computer-vision/ios/Podfile.lock
@@ -1278,7 +1278,7 @@ PODS:
     - ReactCommon/turbomodule/bridging
     - ReactCommon/turbomodule/core
     - Yoga
-  - react-native-executorch (0.3.149):
+  - react-native-executorch (0.3.151):
     - DoubleConversion
     - glog
     - hermes-engine
@@ -2092,7 +2092,7 @@ SPEC CHECKSUMS:
   React-logger: 26155dc23db5c9038794db915f80bd2044512c2e
   React-Mapbuffer: ad1ba0205205a16dbff11b8ade6d1b3959451658
   React-microtasksnativemodule: e771eb9eb6ace5884ee40a293a0e14a9d7a4343c
-  react-native-executorch: e889cf3ec4616fd3f78b9e1f005d67f7d8b10e89
+  react-native-executorch: 2df97239270ae096a3cf0cecf9e520c9dfd49b9c
   react-native-image-picker: e7331948589e764ecd5a9c715c3fc14d4e6187e6
   react-native-safe-area-context: d6406c2adbd41b2e09ab1c386781dc1c81a90919
   React-nativeconfig: aeed6e2a8ac02b2df54476afcc7c663416c12bf7
diff --git a/examples/computer-vision/package.json b/examples/computer-vision/package.json
@@ -17,7 +17,7 @@
     "react": "18.3.1",
     "react-native": "0.76.3",
     "react-native-audio-api": "0.4.11",
-    "react-native-executorch": "/Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.150.tgz",
+    "react-native-executorch": "/Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.197.tgz",
     "react-native-image-picker": "^7.2.2",
     "react-native-loading-spinner-overlay": "^3.0.1",
     "react-native-reanimated": "^3.16.3",
diff --git a/examples/computer-vision/screens/SpeechToTextScreen.tsx b/examples/computer-vision/screens/SpeechToTextScreen.tsx
@@ -9,14 +9,19 @@ export const SpeechToTextScreen = () => {
     transcribe,
     loadAudio,
     downloadProgress,
-  } = useSpeechToText({ modelName: 'moonshine' });
+  } = useSpeechToText({ modelName: 'whisper' });
 
   return (
     <>
       <View style={styles.imageContainer}>
         <Button
           title="Download"
-          onPress={() => loadAudio('http://localhost:8080/output.mp3')}
+          // onPress={() => loadAudio('http://localhost:8080/output.mp3')}
+          onPress={() =>
+            loadAudio(
+              'https://ai.swmansion.com/storage/moonshine/test_audio.mp3'
+            )
+          }
         />
         <Button title="Transcribe" onPress={async () => await transcribe()} />
         <Text>downloadProgress: {downloadProgress}</Text>
@@ -25,6 +30,7 @@ export const SpeechToTextScreen = () => {
           isGenerating: {isModelGenerating ? 'generating' : 'not generating'}
         </Text>
         <Text>{sequence}</Text>
+        <Text>whisper</Text>
       </View>
     </>
   );
diff --git a/examples/computer-vision/yarn.lock b/examples/computer-vision/yarn.lock
@@ -3489,7 +3489,7 @@ __metadata:
     react: 18.3.1
     react-native: 0.76.3
     react-native-audio-api: 0.4.11
-    react-native-executorch: /Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.150.tgz
+    react-native-executorch: /Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.197.tgz
     react-native-image-picker: ^7.2.2
     react-native-loading-spinner-overlay: ^3.0.1
     react-native-reanimated: ^3.16.3
@@ -6996,17 +6996,17 @@ __metadata:
   languageName: node
   linkType: hard
 
-"react-native-executorch@file:/Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.150.tgz::locator=computer-vision%40workspace%3A.":
-  version: 0.3.150
-  resolution: "react-native-executorch@file:/Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.150.tgz::locator=computer-vision%40workspace%3A."
+"react-native-executorch@file:/Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.197.tgz::locator=computer-vision%40workspace%3A.":
+  version: 0.3.197
+  resolution: "react-native-executorch@file:/Users/kopcion/swm-ai/react-native-executorch/react-native-executorch-0.3.197.tgz::locator=computer-vision%40workspace%3A."
   dependencies:
     expo-asset: ^11.0.3
     expo-file-system: ^18.0.10
     react-native-audio-api: 0.4.11
   peerDependencies:
     react: "*"
     react-native: "*"
-  checksum: 6bdf4b79dbe44e0a09d656dd0d26d119c6492aa640e755b6abd5e67e36fef121b82de6ae9f4f0a2dfc2289af367a281414f856d7be26d4735f8426d1e5ee4190
+  checksum: 9643a491f1bae4d4c2e8f2a15d9243c935a98fbeacd6f2d5995d4ec1b98a11764c6b355a078503f5069f209bbbc79b5076d9d5e8d0400f4afa373875125efc6d
   languageName: node
   linkType: hard
 
diff --git a/package.json b/package.json
diff --git a/src/constants/modelUrls.ts b/src/constants/modelUrls.ts