2021中文学生开源年会讲者专访之二:冯浩圣讲者

2021中文学生开源年会讲者专访之二:冯浩圣讲者

2021中文学生开源年会讲者专访之二:冯浩圣讲者

2021中文学生开源年会将于10月23日至24日于南方科技大学举办,在本次活动之前,依照sosconf 之传统,开源年会组委会将特别推出讲者系列专访。

本次专访由冯浩圣讲者带来~

非常感谢您参与 sosconf.zh 2021,请问您能介绍一下自己吗?

冯浩圣:我是18级生物医学工程系的,目前在新加坡国立大学联合培养。在这个项目中参与前端开发,一开始好朋友邀请我一起开发,我就先在网上找教程自学,然后就跟他们开始了。

请问您能向读者简单地介绍一下您的演讲内容吗?

冯浩圣:我们在做的项目是一个数据共享标注平台,因为深度学习的应用常常离不开大量数据的驱动,但是标注这些数据费时费力,是一笔很大的负担。实际上,人们做了很多的重复劳动,类似的数据被不同的人一遍又一遍地标注。我们这个平台想要做的,就是让每个用户标注数据集的其中一部分,完成之后大家都可以使用完整数据集,所以算是数据的开源

您的项目是一个「数据共享标注平台」,通过共享数据标注的形式来构成完整的数据集;我们了解到,目前已经有相当多的机构通过众包等方式对数据进行标注,请问您认为您的项目于他们的「特别之处」在什么地方呢?

冯浩圣:不同之处就在于数据开源,因为用众包的形式,标注好的数据是不会跟其他人共享的。如果有别的人需要,他们必须再出一份钱,让众包公司重新标一次。这就产生了许多的重复劳动。而共享标注是假如有 100 个人需要这份数据集,每个人只要付出百分之一的标注劳动,或者百分之一的价格,因而使得获取数据的成本降低。

您的项目开源了数据集,但也有一部分研究者与企业使用私有数据集进行人工智能训练,并在公开的数据集上取得了更好的成果,请问您如何看待开源数据集与私有数据集之间的差异呢?

冯浩圣:有时候数据含有敏感信息,或者是被人看中了商业价值,这种情况下一般不会开源。从质量上,开源数据集不一定比私有数据集差,这要依情况而定。有一些开源数据集质量很高,被人拿去检验算法好坏,比如 ImageNet。 我们想做的就是提供一个平台,鼓励更多人为开源数据集做贡献,让开源数据集既有质量又有数量,而且易于获取。

「无监督学习」也是机器学习中的一个重要领域,但其并不需要对数据集进行标注,随着标注技术的成熟和工作量的增加,请问您认为人工标注会不会被机器标注所取代呢?

冯浩圣:无监督学习的确是很重要的技术,但监督学习也很重要,所以无监督学习现在看来没有可能彻底取代监督学习。假如想要用无监督学习代替人工去做标注,再把标注好的数据喂给监督学习,那反而更绕。何不直接拿无监督学习产生结果?

举个例子,有个无监督学习方法已经能很好地分类猫和狗,现在用它标注了大量的猫狗照片,然后再把这些照片喂给一个监督学习的算法。那么监督学习要学的,正是无监督学习标注的结果,它最多达到和无监督学习一样好,不可能再超过无监督学习。所以这其实有点“多此一举”了。

您在项目中负责的是前端开发部分,请问您有在学习和开发前端的过程中使用过一些开源前端项目吗?如果有,您认为这些项目为您带来了什么呢?

冯浩圣:我们开发前端用的 Vue 框架就是开源的,还用了它的一些插件比如 Vuex,Vuetify 等等都是开源的。此外,我们还参考了另一个开源的本地数据标注项目 doccano,从这个项目中学了许多技巧,看懂 doccano 的代码之后,再写自己的思路就会开阔和清晰很多。

您作为生物医学工程专业的同学,似乎与计算机相关领域相去甚远,但您不仅为自己的平台写了前端页面,还将会于中文学生开源年会上发表主题演讲,请问您是如何做到这样的「领域跨越」的呢?

冯浩圣:其实生物医学工程跟计算机相去没有甚远。这个领域内很多问题的解决都应用了深度学习,所以我原本就对深度学习有基本了解。前端开发我是现学现用的,但这也没比计算机系同学更难,因为我知道前端开发不是必修,计系的人也是一样从头学起。

其实这次的负责前端,是我一位朋友跟说我,“就帮个小忙,前端特别简单的”。我居然信了,然后就开始从HTML、JS、CSS 学起,我以为学完了,朋友又说,“你再去学一下 Vue”。我又以为我学完了,他又说,“你这个,还得再学一下使用 vuetify 组件库……”反正直到现在,仍然处于现学现用的状态,前端要学的东西也挺多的,我先学基本的、常用的,写到不会写的地方再去补。

请问在生物医学工程领域内是否也有与「开源」类似的概念或是实现呢?

冯浩圣:当然有了,生物医学工程有许多问题的解决是依靠算法上的创新,自然而然就会有许多人的算法是基于别人的算法进行改进。一般情况下,这些算法的源码都在github上面能找到。

此外也有人把自己实验采集到的数据集开源给其他人用,比如荧光显微图像的数据集、阿尔茨海默症病人的fMRI数据集,很多很多。

请问您还想对我们的读者说一些什么呢?

冯浩圣:Coanno 数据共享标注平台现在有4个人利用课余时间和业余时间开发,感兴趣的小伙伴欢迎来联系我~ 你说你没有经验,没关系,人都是从不熟到熟;你说你没有基础,不要紧,人都是从不会到会。(有经验有基础当然更加欢迎!)我们期望你在这个项目的开发过程中能有一份收获!

 

以下通信方式为学生开源年会的官方联络方式,敬请关注。

本次年会官方网站: 2021zh.sosconf.org

本次年会邮件地址:2021.zh@sosconf.org

学生开源年会官方网站:sosconf.org

电报英文群组:https://t.me/sosconf
官方微博:https://weibo.com/sosconf
电报中文群组:https://t.me/soscon
中文交流QQ群:337055895

微信公众号:学生开源年会

Share

Leave a Comment

TOUCH THE OPEN SOURCE?

JOIN OUR COMMUNITY

Join the Group