This is bill125's homepage.

My name is Zhu Jiahao, 朱佳豪.

I graduated from Tsinghua University, Department of Computer Science and Technology.
I am now studying as Ph.D., major in Computer Science and Technology in Tsinghua University.

My Github Homepage: https://github.com/bill125.

这篇讲的是细胞轨建模的一个工具wot

形象地去思考细胞差异的本质,它可以是一列或者沿着有分叉的轨道前行,也可以是宝石在发展的(?)的地形上滚动。细胞轨迹建模本质上是要回答“一个细胞正处于什么阶段?它的起源最有可能是什么?它的最终命运是什么?哪些因子决定了它的生命历程?” bulk RNA-seq的一些方法并不适用于解轨迹建模的问题,因为它们解决不了(1)从所有细胞中分辨出不同细胞种类(2)分别追踪每种细胞种类的生命历程,这两个挑战。挑战(1)被新出现的scRNA-seq技术的大量方法所解决,挑战(2)仍然是WIP。

scRNA-seq会筛选掉一些细胞,这导致我们不能完整地追踪一个细胞。现有方法给出的细胞信息十分有限。对于细胞轨迹的理解性工作,目前很大程度上取决于计算方法的发展,好比把离散的截图组合成电影。但这些方法目前都有所欠缺:

  1. 首先,他们无一例外的都没有利用好时间相关的信息,大多专注于静止阶段。
  2. 其次,许多方法用图理论对轨迹进行建模,例如一维轨迹(边),零维分支点(点),因而细胞命运的逐渐变化的过程,在这些模型里没有被很好地捕捉到。
  3. 再者,几乎没有什么方法对细胞生长和死亡的原因作出解释。

Waddington-OT(wot) 是一种概念上的框架,它用来证明某一时间的细胞,其实是从基因表达空间中的概率分布模型选出来的,并且每个细胞都有从各个来源演化来的概率以及之后不同命运的概率。这个框架利用了沿时间变化的scRNA-seq数据,研究了细胞轨迹的这种概率分布模型是如何随时间演化的,所用方法为 Optimal Transport (OT).该框架被应用到理解一组转录因子瞬时过表达(?)后的细胞重编程。(目前重编程主要指两个过程:其一,分化的细胞逆转恢复到全能性状态的过程;其二,从一种分化细胞转化为另一种分化细胞的过程。from 百度百科)。针对这一课题, 有些相关问题是值得研究的:在重编程阶段哪类细胞数量上升?有哪些发育路径最终会通向重编程或者细胞的其他命运?哪些细胞的固有因素以及细胞间的相互作用会在这些路径上起驱动作用?收集到的信息能否提升细胞向某一特定目标重编程的效率?

fibroblasts(纤维原细胞;纤维组织母细胞)的重编程来形成全能干细胞目前已经被基于手工标注基因和基因分析的方法鉴定完毕。一些研究发现了几个具有谱系专一性的基因在这一过程中剧烈上调的现象,但这是否能反映出特定细胞间或杂乱的基因表达间的耦合差异仍不清楚。最近的一个工作分析了36000个scRNA-seq细胞在化学上而不是在转录因子的重编程过程,但仅鉴别出的单个分支事件(?)。通过分析MEFs数据,我们发现重编程过程发动了远超出认知范围内的一些列编程或子编程过程。通过实验,我们证明了,最高的两个预测从实际上增加了重编程的效率。

  • work in progress - : 补充实验的一些

最近读的几篇literature review,整理一下思路准备开始写提纲。

Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges

这篇主要讲的是Pathway Analysis具体内容不太看得懂,主要学一下思路.

文章采用了一种 knowledge base–driven 的叙述方式,讨论了每类方法的一些缺点,并提出了一些待解决的挑战。现有方法从Over-Representation Analysis (ORA) Approaches, Functional Class Scoring (FCS) Approaches, Pathway Topology (PT)-Based Approaches 三种方法大类分别进行阐述,并总结了各类方式整体上的限制在哪里,这个感觉比较interesting. 最后一部分提了一些问题.

Revealing the vectors of cellular identity with single-cell genomics

Aviv在2016年写的有关细胞识别的向量表示的literature review. 推动这一领域发展的主要动力还是在于大规模数据集的产生. 本文主要涉及的领域是scRNA-seq,单细胞基因组测序的内容在同时期的另一篇论文Single-cell genome sequencing: current state of the
science
已经提及(有所着重尽可能不重复也是literature review所要注意的).这一领域有四个主要的研究方向(开篇Introduction里应该先有一个统括性的描述,对整个领域的研究问题进行高度概括):
(1) designing experiments and performing power analysis (e.g., how many cells do we need to profile for a given task? At what depth?);
(2) preprocessing to distinguish biological from technical variation, especially false-negative gene detections (dropouts);
(3) inferring the key aspects of a cell atlas, from discrete sub-types to continuous spatiotemporal ordering of cells; and
(4) deriving molecular mechanisms from cell-to-cell variation.
后文写作脉络主要是(a)key questions,(b)progress,(c)open challenges

scRNA-seq的变化性来源于三个方面:1) 实验过程的误差 2) 等位基因的固有差异 3) 等位基因的外在差异,其中 1)2) 是主要干扰因子。

这次主要是想总结一下单细胞转录组领域近期深度学习方法的一些应用,之前走马观花的扫paper给我留下的印象不够深刻,做一些简单的阅读笔记来提醒自己. reference list来源于Single Cell Genomics Day: A Practical Workshop. Rahul Satija提到的paper其实都值得一看,我觉得先从Deep Learning方面的入手比较好.

Deep Generative Modeling for Single-cell Transcriptomics

这篇主要介绍了scVI的计算生物框架,这个框架的功能性很强,涵盖了denoising, clustering, batch correction, differential expression这几个单细胞转录组分析的常见问题,framework还是NN,具体实现以及结果比较之后补充。

This paper is mainly about Spark database.
Spark database is deployed on a distributed clusters. As the previous db failed to support effecient AD Hoc queries involving intermedieate results reusing, spark solve this problem using the RDD data structure.

Actually I don't have to learn how RDD works in Spark for my project for now. I am reading this paper just out of curiosity.

Learning CVPR 2016, Eye Tracking for Everyone from today.

Eye Tracking for Everyone

Background

Eye tracking problem is facing the hard situation among the flowing problems: high-cost, custom, invasive hardware ...

Related work

Gaze Estimation

model-based

Corneal-Reflection: External light to detect eye feature

Shape-based: eye shapes, such as pupil centers and iris edges

This paper:generalize well to novel faces without needing user-specific data

appearance-based

said to provide larger amounts of user-specific training data

GazeCaputre

Gaze Caputre is a large-scale dataset

Scalability

Crowdsourcing is used, while most platform is on laptops/desktops.

A custom mobile application is designed.

Reliability

Airplane Mode

show a pulsating red circle around the dot

press Left and Right

Variability

we force workers to change the orientation of their mobile device after every 60 dots.

Learning something about REST framework.

It's introduced that it provides front designers and backend designers with total seperate working space.

Still confused about what serilization is and why it's necessary.